RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

Mots clés générés par l'IA : RAFT caractéristiques par pixel volumes de corrélation 4D unité récurrente efficacité

Points clés générés par l'IA

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

RAFT est une nouvelle architecture de réseau neuronal profond pour le flot optique.
Il extrait des caractéristiques par pixel et construit des volumes de corrélation 4D multi-échelle pour toutes les paires de pixels.
RAFT met à jour itérativement un champ de flot grâce à une unité récurrente qui effectue des recherches dans les volumes de corrélation.
Il atteint des performances supérieures aux méthodes existantes avec une généralisation solide entre différents ensembles de données et une grande efficacité en termes d'inférence, vitesse d'entraînement et nombre de paramètres.
Le code source est disponible sur https://github.com/princeton-vl/RAFT.
Cette nouvelle architecture représente une avancée significative dans la résolution du problème du flot optique.

Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Zachary Teed, Jia Deng

arXiv: 2003.12039v1 - DOI (cs.CV)

Licence : NONEXCLUSIVE-DISTRIB 1.0

Résumé : We introduce Recurrent All-Pairs Field Transforms (RAFT), a new deep network architecture for optical flow. RAFT extracts per-pixel features, builds multi-scale 4D correlation volumes for all pairs of pixels, and iteratively updates a flow field through a recurrent unit that performs lookups on the correlation volumes. RAFT achieves state-of-the-art performance, with strong cross-dataset generalization and high efficiency in inference time, training speed, and parameter count. Code is available \url{https://github.com/princeton-vl/RAFT}.

Soumis à arXiv le 26 Mar. 2020

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2003.12039v1

⚠La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Nous présentons Recurrent All-Pairs Field Transforms (RAFT), une nouvelle architecture de réseau neuronal profond pour le flot optique. RAFT extrait des caractéristiques par pixel et construit des volumes de corrélation 4D multi-échelle pour toutes les paires de pixels. Il met à jour itérativement un champ de flot grâce à une unité récurrente qui effectue des recherches dans les volumes de corrélation. RAFT atteint des performances supérieures aux méthodes existantes avec une généralisation solide entre différents ensembles de données et une grande efficacité en termes d'inférence, vitesse d'entraînement et nombre de paramètres. Le code source est disponible sur \url{https://github.com/princeton-vl/RAFT}. Cette nouvelle architecture représente une avancée significative dans la résolution du problème du flot optique. En extrayant des caractéristiques par pixel et en construisant des volumes de corrélation 4D multi-échelle pour toutes les paires de pixels, RAFT capture efficacement les relations spatiales entre les pixels dans une image. De plus, l'utilisation d'une unité récurrente permet à RAFT d'itérer et d'améliorer progressivement le champ de flot en effectuant des recherches dans les volumes de corrélation. Les résultats expérimentaux démontrent que RAFT atteint des performances supérieures à celles des méthodes existantes avec une forte généralisation entre différents ensembles de donnée ce qui indique sa capacité à s'adapter à diffèrentes scènes et conditions d'illumination. De plus, il se distingue par son efficacité tant au niveau du temps d'inferences que celui du temps d’entrainement ce qui en fait une solution pratique pour applications temps réel. En outre, son nombre relativement faible paramètres le rend économiquement viable. En conclusion, RAFT est une architecture novatrice pour le flot optique qui surpasse les métohdes existantes en termes performance et généraleisation . Sa capacité à capturer efficacement les relations spatiales entre les pixels et son efficacité tant au niveau du temps inference que celui vitesse entrainement font qu’il est prometteur pour divers applications vision ordinateur . Le code source est disponible afin faciliter utilisation reproduction resultats obtenus avec RAFT .

- RAFT est une nouvelle architecture de réseau neuronal profond pour le flot optique.
- Il extrait des caractéristiques par pixel et construit des volumes de corrélation 4D multi-échelle pour toutes les paires de pixels.
- RAFT met à jour itérativement un champ de flot grâce à une unité récurrente qui effectue des recherches dans les volumes de corrélation.
- Il atteint des performances supérieures aux méthodes existantes avec une généralisation solide entre différents ensembles de données et une grande efficacité en termes d'inférence, vitesse d'entraînement et nombre de paramètres.
- Le code source est disponible sur https://github.com/princeton-vl/RAFT.
- Cette nouvelle architecture représente une avancée significative dans la résolution du problème du flot optique.

Résumé : - RAFT est une nouvelle architecture de réseau neuronal pour le flot optique. - Il utilise des caractéristiques par pixel et construit des volumes de corrélation pour les paires de pixels. - RAFT met à jour un champ de flot en utilisant une unité récurrente qui recherche dans les volumes de corrélation. - Il fonctionne mieux que d'autres méthodes avec différents ensembles de données et est efficace en termes d'inférence, vitesse d'entraînement et nombre de paramètres. - Le code source est disponible sur https://github.com/princeton-vl/RAFT. - Cette nouvelle architecture résout le problème du flot optique. Définitions 1. Flot optique : C'est la mesure du mouvement apparent des objets entre différentes images. Cela permet de suivre comment les objets se déplacent dans une scène. 2. Réseau neuronal : C'est un modèle informatique inspiré du cerveau humain qui peut apprendre à reconnaître des motifs et effectuer des tâches spécifiques en traitant des données. 3. Caractéristiques : Ce sont des informations spécifiques ou des propriétés qui peuvent être extraites d'une image ou d'un objet pour aider à l'analyse ou à la reconnaissance. 4. Volume de corrélation : C

Nous présentons Recurrent All-Pairs Field Transforms (RAFT), une nouvelle architecture de réseau neuronal profond pour le flot optique. RAFT est une avancée significative dans la résolution du problème du flot optique qui permet d'extraire des caractéristiques par pixel et de construire des volumes de corrélation 4D multi-échelle pour toutes les paires de pixels. Cette architecture met à jour itérativement un champ de flot grâce à une unité récurrente qui effectue des recherches dans les volumes de corrélation. Les résultats expérimentaux montrent que RAFT atteint des performances supérieures à celles des méthodes existantes avec une forte généralisation entre différents ensembles de donnée ce qui indique sa capacité à s'adapter à diffèrentes scènes et conditions d'illumination. De plus, il se distingue par son efficacité tant au niveau du temps d'inferences que celui du temps d’entrainement ce qui en fait une solution pratique pour applications temps réel. En outre, son nombre relativement faible paramètres le rend économiquement viable.

Introduction

Le flot optique est un algorithme essentiel utilisé en vision informatique pour estimer la trajectoire apparente des objets sur l’image vidéo ou sur plusieurs images statiques successives afin de déterminer leur mouvement relatif et leurs propriétés intrinsèques telles que la taille, la forme ou encore la couleur . La difficultée principale consiste alors a capturer les relations spatiales entre les pixels contenus dans l’image afin qu’ils puissent être correctement associés entre elles .

Recurrent All-Pairs Field Transforms (RAFT)

Afin de relever ce defi , Nous presentons Recurrent All-Pairs Field Transforms (RAFT) ,une nouvelle architecture novatrice pour le flot optique . RAFT extrait des caractérstiques par pixel et construit ensuite des volumes 4D multi-echelle pour toutes les paires possibles . Il met alors a jour iterativement un champ flow grace a une unite recurrente qui effectue des recherches dan sle volume correlationnel obtenu .

Performances

Les resultats experimentaux demontrent que RAFT atteintdes performances superieures aux methodes existantes ,avec notamment une generalisation solide entre differents ensemble donneees ce qui indiquant sa capacite a sadapter aux differents scenes et conditions illuminations rencontrees . De plus , il se distingue par son efficacite tant au niveau inference qua celui vitesse dentrainement ce qui en fait une solution pratique pour application temps reel . En outre ,son nombre relativement faible parametres le rend economiquement viable

Conclusion

En conclusion ,RAFTEstune architecture novatrice pour le flux optiquequi surpasse les methodese xistantes en term performance et generalisation Sa capacite capturer efficientemntles relations spatiale entree ls pixelset son efficacite tant au niveau inference qua celui vitesse dentrainemen font qul est prometteurpour divers applications vision ordinateur Le code sourceest disponibleafin faciliterutilisation reproduction resultats obtenusavec RAFT

Créé le 06 Sep. 2023

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

⚠La licence de cet article spécifique ne nous permet pas de nous appuyer sur son contenu et les outils de synthèse seront exécutés en utilisant les métadonnées de l'article plutôt que l'article complet. Cependant, l'outil produira quand même un bon résultat, et vous pouvez également essayer nos outils sur des papiers avec des licences plus ouvertes.