En cliquant sur "Accepter", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
2 mai 2022

Qu'est-ce que l'annotation vidéo dans l'apprentissage profond ?

2 mai 2022

L'annotation vidéo est l'annotation des objets dans les clips vidéo afin de permettre aux machines de détecter et de reconnaître ces objets. Cet article explique les utilisations, les types et les méthodes d'annotation vidéo disponibles.

Qu'est-ce que l'annotation vidéo ?

Qu'ont en commun les voitures à conduite autonome, la technologie de reconnaissance faciale et les jeux vidéo sportifs ? Ils fonctionnent tous grâce à des IA qui s'appuient sur des annotations vidéo pour fonctionner de manière transparente. 

L'annotation vidéo peut être décrite comme le processus d'identification et de annotation des objets dans une image vidéo. Les données sont utilisées pour la formation informatique des modèles d'IA, ce qui leur permet de reconnaître avec précision les objets en mouvement dans une vidéo. Tout cela se fait grâce à l'apprentissage profond, c'est-à-dire un réseau neuronal en couches qui permet à l'IA d'apprendre à partir de grandes quantités de données.

Une annotation vidéo de bonne qualité devrait permettre de générer un ensemble de données de "vérité de base", ce qui est optimal pour l'apprentissage profond et l'apprentissage automatique. Les applications de ces annotations vidéo de haute qualité sont infinies, des voitures auto-conduites au domaine de la médecine, et de nombreuses autres utilisations sont discutées ci-dessous :

Applications de l'annotation vidéo

Localisation d'objets

L'annotation vidéo peut être utilisée pour localiser le sujet principal d'une vidéo. Il s'agit généralement de l'objet qui est mis au point dans le cadre. Cette fonction est utile lorsque plusieurs objets sont présents dans une image.

Suivi des objets 

Une autre application consiste à suivre diverses catégories d'objets, après les avoir reconnus avec succès. Cette fonction est particulièrement utile dans les voitures à conduite autonome et permet aux modèles d'IA de reconnaître les piétons, les cyclistes et les autres voitures. Les drones autonomes tirent également parti de cette fonctionnalité.

Suivi de l'activité humaine et des poses

Cette application est utile pour l'analyse des sports. Le modèle d'IA est entraîné à suivre les poses et les actions des sportifs et même à prédire les mouvements.

Détection d'objets

L'IA est capable de déterminer si les objets cadrés sont correctement positionnés ou s'ils présentent un défaut externe. Cette fonction est utile pour le contrôle de la qualité dans les usines, comme les usines de transformation alimentaire.

Méthodes d'annotation vidéo 

Il existe deux méthodes principales d'annotation vidéo, la technique de l'image unique et la technique de l'image continue.

Technique de l'image unique

Il s'agit de la technique traditionnelle, qui consiste à examiner chaque image et à annoter chaque objet, l'un après l'autre. Elle demande autant d'efforts qu'elle en a l'air et fonctionne mieux avec les projets qui seront financés par la foule ou externalisés. Les questions à prendre en compte sont la durée, les coûts du projet et les erreurs dans les produits finaux. 

Technique de l'image continue

Dans cette technique, le processus est simplifié par l'utilisation de méthodes telles que le flux optique. L'ordinateur analyse les pixels des images qui précèdent et suivent l'image actuelle et, grâce aux prédictions de mouvement des pixels, il peut suivre automatiquement chaque objet qui se déplace d'une image à l'autre.

Cette méthode élimine le biais humain, mais elle dépend de la qualité et de la résolution de la vidéo examinée.

Types d'annotation vidéo

Boîtes de délimitation 2D 

Dans ce type d'annotation, un rectangle en 2D est créé autour de l'objet à annoter. Chaque boîte est dessinée manuellement et doit contenir précisément les dimensions de l'objet. L'objet est ensuite annoté avec sa classe (par exemple, voiture, vélo, etc.) et ses caractéristiques (par exemple, couleur et taille).

Cuboïdes 3D

Il s'agit d'un processus similaire à la boîte de délimitation 2D, mais dans ce cas, un cube 3D est créé autour de l'objet. Ce cube tient compte de la longueur, de la largeur et de la profondeur de l'objet lorsqu'il se déplace d'une image à l'autre, et illustre la manière dont il interagit avec l'environnement.

Polygones

Parfois, les boîtes de délimitation 2D ou 3D ne permettent pas de capturer avec précision les dimensions d'un objet dans le cadre. Dans ce cas, un polygone est une méthode bien plus efficace, car il offre un degré de précision plus élevé. De minuscules points sont placés sur les bords de chaque objet afin de créer des lignes permettant de capturer correctement la forme de l'objet.

Points de repère

Les annotations de points de repère permettent de suivre des parties spécifiques d'un objet, en générant des points focaux ou des points et en les reliant pour construire une sorte de plan de l'image. Elles sont couramment utilisées dans les logiciels de reconnaissance faciale et dans l'identification d'expressions, de formes et d'objets minuscules.

Polylignes

Les lignes sont utilisées pour indiquer les emplacements que les modèles d'IA doivent reconnaître dans toutes les images. Dans le domaine des véhicules autonomes, ces données aident l'ordinateur à reconnaître les différents types de voies et de marquages routiers.

Vous vous demandez quel service d'annotation vidéo utiliser ?

Si vous êtes prêt à faire le grand saut, vous pouvez emprunter deux voies principales pour répondre à vos besoins en matière d'annotation vidéo. De nombreux outils d'annotation vidéo gratuits et open source sont disponibles sur le Web. Ils peuvent se présenter sous la forme de programmes autonomes téléchargeables qui peuvent être exécutés sur le système d'exploitation de votre ordinateur ou sur tout navigateur Web moderne. Un exemple populaire est le Computer Vision Annotation Tool, ou CVAT.

Compte tenu de l'ampleur et des paramètres de votre projet, il peut être préférable d'envisager une externalisation vers une plateforme d'annotation professionnelle. Cette option est généralement plus rapide et plus rentable. Les plateformes professionnelles disposent d'équipes de gestionnaires spécialisés, de personnel chargé de l'assurance qualité et, dans de nombreux cas, d'outils d'annotation vidéo internes. 

L'expérience et les compétences comptent lorsqu'il s'agit de trouver la bonne méthode pour vos besoins d'annotation vidéo. Si vous recherchez une plateforme pratique tout-en-un pour annoter votre ensemble de données vidéo, isahit est la plateforme d'annotation des données qui possède l'expertise et la fonctionnalité nécessaires pour gérer tous les besoins de votre projet.

Vous pourriez également aimer
ces autres articles

Vous voulez faire grandir vos projets de labellisation de données
et le faire de manière éthique ?

Nous disposons d'une large gamme de solutions et d'outils qui vous aideront à former vos algorithmes. Cliquez ci-dessous pour en savoir plus !