En cliquant sur "Accepter", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.

Les meilleurs outils gratuits d'étiquetage de texte pour l'annotation et la catégorisation de texte dans le traitement du langage naturel.

30 août 2022

Quels sont les meilleurs outils gratuits d'étiquetage de texte pour l'annotation de texte en NLP ?

Brat, INCEpTION et DACCANO ont été décrits comme les trois meilleurs outils d'annotation de texte libre adaptés à l'étiquetage manuel de documents dans le cadre de projets de Natural Learning Process (NLP). Cet article décrira longuement à quoi cet outil convient, puis décrira le processus d'installation et de configuration et son utilisation.

Qu'est-ce que l'annotation de texte ?

L'annotation de texte est l'acte de pratiquer et le résultat de l'ajout d'une note à un texte qui peut inclure des commentaires, des notes de bas de page, des surlignements et des liens. L'annotation de texte peut être destinée à une lecture privée ou partagée. Son but est soit l'écriture et l'édition collaborative, le commentaire, la lecture ou le partage. Les annotations de texte aident à former les algorithmes de processus d'apprentissage naturel qui nécessitent de grands ensembles de données de texte annoté.

Qu'est-ce que la catégorisation de texte ?

Elle est également connue sous le nom de classification de textes. La classification des textes garantit que les annotateurs lisent un texte ou un groupe de textes. La classification de textes permet d'annoter un corps ou une ligne entière de texte avec une seule étiquette.

1. BRAT

BRAT est un environnement en ligne ou virtuel utilisé pour une annotation textuelle combinée qui peut être exécuté simultanément sur un serveur et ensuite utilisé dans un navigateur. Il est utilisé pour annoter des expressions uniques et les relations entre elles. Par conséquent, l'utilisation de BRAT pour annoter des textes plus longs tels que des paragraphes n'est pas pratique. Les documents d'entrée doivent être fournis sous forme de fichiers texte. Il est souvent avancé que la présentation de l'interface utilisateur (IU) du fichier texte dans BRAT ne ressemble pas à son formatage original. Pour ces raisons, BRAT n'est pas considéré comme un outil idéal pour annoter des documents structurés si vous préférez annoter directement des PDF. Les annotations sont également stockées dans des fichiers texte. BRAT dispose de quelques fonctionnalités majeures pour l'étiquetage collaboratif qui sont : plusieurs utilisateurs sont supportés et il y a une comparaison d'annotation intégrée.

2. DOCCANO

DOCCANO est un autre outil d'annotation qui est principalement destiné aux fichiers texte. On pense qu'il est plus facile et plus simple à utiliser que brat. Comme BRAT, il fonctionne sur serveur et possède une interface utilisateur de type navigateur. Cependant, il diffère de BRAT dans le sens où toute configuration se fait dans l'interface utilisateur web. Son cas d'utilisation est limité à la classification de documents, à l'étiquetage de séquences et à la séquence-à-séquence. Plus important encore, DACANO est convivial par rapport à BRAT et, selon le choix du cas d'utilisation, les étiquettes sont uniquement au niveau du document ou de l'étendue. En fonction du type de projet, vous pouvez déterminer les options pour le format d'exportation des annotations, qui peut être CSV ou JSON. Une fois encore, DOCCANO autorise les utilisateurs multiples. Cependant, contrairement à BRAT, DACCANO ne dispose pas de fonctionnalités supplémentaires pour l'étiquetage collaboratif. Là encore, DOCCANO offre deux fonctionnalités supplémentaires qui ne sont pas disponibles dans BRAT. Il s'agit de la rédaction et de l'enregistrement des directives d'étiquetage directement dans l'application (en Markdown) et de l'obtention d'un aperçu schématique de base des statistiques d'étiquetage.

 3. INCEpTION

INCEpTION est le projet qui fait suite à WebAnno. De même, INCEpTION utilise une interface utilisateur de type navigateur. Il peut être utilisé de diverses manières, soit par un groupe d'utilisateurs sur un serveur, soit en version autonome. INCEpTION est considéré comme un outil plus lourd que DOCCANO ou BRAT. Il peut être utilisé pour les fichiers texte ou les PDF contenant des informations textuelles. INCEpTION dispose d'une fonctionnalité étendue qui vous permet de configurer pratiquement tout. Là encore, il facilite l'étiquetage collaboratif et peut évaluer statistiquement les annotations tout en exportant les annotations dans un large éventail de formats d'étiquetage courants du processus d'apprentissage naturel. Néanmoins, INCEpTION peut être compliqué à utiliser au départ, et il a été conseillé d'ignorer les fonctionnalités qui sont complexes à utiliser. La plupart des gens sont attirés par INCEpTION en raison de sa capacité d'étiquetage au format PDF. 

Installation

1. BRAT

BRAT est livré avec des instructions détaillées sur la manière de l'installer. Si vous souhaitez simplement installer et exécuter brat sur votre machine locale, alors le serveur autonome est ce qu'il vous faut. Tout d'abord, vous devez placer la section "données" des instructions pour apprendre comment configurer les fichiers d'annotation. Comme BRAT n'est pas compatible avec Python, vous devrez modifier la commande python standalone.py en python2 standalone.py. BRAT est réputé pour fonctionner exceptionnellement bien avec Google Chrome.

2. DOCCANO

DOCCANO est plus facile à utiliser. Lors de l'installation de DOCCANO, vous n'avez pas nécessairement besoin de comprendre ce qu'est Docker. Cela peut être fait à condition que Docker soit installé. Pour vous familiariser avec ses fonctionnalités, essayez les démos en direct de Doccano.

3. INCEpTION

INCEpTION est accompagné d'un guide d'utilisation complet qui explique en détail comment l'installer et l'exécuter. L'exécution d'INCEpTION est particulièrement facile, car vous pouvez exécuter le fichier JAR téléchargé sans l'installer.

Configuration et utilisation

1. BRAT

BRAT permet de configurer un schéma d'étiquetage spécifique au projet par le biais de fichiers .conf. L'utilisation de brat est assez simple. Tout d'abord, vous devez marquer un espace de texte qui ouvre un menu contextuel. Les options du menu peuvent dépendre de la configuration du schéma d'étiquetage. Cependant, il est nécessairement facile de marquer l'étendue exacte souhaitée. En outre, si l'espace marqué est trop long, le menu contextuel risque de ne pas tenir à l'écran.

2. INCEpTION

INCEpTION demande beaucoup de configurations. INCEpTION a une grande capacité d'étiquetage des PDF. Pour créer un nouveau projet, vous devez d'abord créer un nouveau projet, puis importer un document. Ensuite, vous devez définir une étiquette, modifier les paramètres de la visionneuse de documents pour afficher le document sous forme de fichier PDF, puis annoter le document.

3. DOCCANO

Contrairement à INCEpTION, DOCCANO ne demande pas trop de configuration. DOCCANO vous permet de créer et de modifier des étiquettes directement dans l'interface utilisateur du navigateur, ainsi que des directives d'étiquetage. Pour se familiariser avec les fonctionnalités de DOCCANO, il est recommandé d'essayer les démos en direct de DOCCANO.

Principaux outils d'annotation de texte payants

1. isahit

Isahit offre une solution complète d'étiquetage développée spécifiquement pour le traitement des textes. 

Un service unique qui combine des outils d'étiquetage personnalisables, un chef de projet dédié et un force de travail formé pour chacun de vos besoins. Une plateforme conçue et construite avec les équipes de data science afin d'offrir une solution qui vous suit dans toutes les étapes de votre projet de traitement du langage naturel.

  • Outil de reconnaissance des entités nommées
  • Outil d'annotation sémantique
  • Outil de catégorisation des textes
  • Outil de transcription

2. Tagtog

Il s'agit d'un outil d'annotation de texte qui peut être utilisé pour annoter du texte automatiquement ou manuellement. Tagtog prend en charge l'annotation PDF et inclut des modèles NER pré-entraînés pour l'annotation automatique de textes.

3. Echelle

Scale fournit des services d'annotation de textes tels que la catégorisation, la comparaison et la transcription OCR de textes. Scale fournit des services d'annotation de données computer vision et NLP.

4. LightTag

L'outil d'annotation de texte LightTag est une plateforme permettant aux annotateurs et aux entreprises d'étiqueter leurs données textuelles en interne.

4. KConnect

Il s'agit d'un outil d'annotation de texte qui permet de classer et d'annoter efficacement les données médicales. KConnect fournit des services d'annotation sémantique, d'analyse de texte et de recherche sémantique pour les informations médicales.

Vous pourriez également aimer
ces nouveaux articles connexes

Vous voulez grandir vos projets de labellisations de données
et le faire de manière éthique ?

Nous disposons d'une large gamme de solutions et d'outils qui vous aideront à former vos algorithmes. Cliquez ci-dessous pour en savoir plus !