Les meilleurs outils gratuits d'étiquetage pour l'annotation et la catégorisation de textes dans le traitement du langage naturel
Brat, INCEpTION et DOCCANO ont été décrits comme les trois meilleurs outils d'annotation de texte libre adaptés à l'annotation manuelle de documents sur le site annotation dans le cadre de projets de processus d'apprentissage naturel (NLP). Cet article décrit en détail ce pour quoi cet outil est adapté, puis décrit le processus d'installation et de configuration et son utilisation.
L'annotation de texte est l'acte de pratiquer et le résultat de l'ajout d'une note à un texte qui peut inclure des commentaires, des notes de bas de page, des surlignements et des liens. L'annotation de texte peut être destinée à une lecture privée ou partagée. Son but est soit l'écriture et l'édition collaborative, le commentaire, la lecture ou le partage. Les annotations de texte aident à former les algorithmes de processus d'apprentissage naturel qui nécessitent de grands ensembles de données de texte annoté.
Elle est également connue sous le nom de classification des textes. La classification des textes garantit que les annotateurs lisent un texte ou un groupe de textes. La classification des textes permet d'annoter tout un corps ou une ligne de texte à l'aide d'une seule annoter.
BRAT est un environnement en ligne ou virtuel utilisé pour une annotation de texte combinée qui peut être exécutée simultanément sur un serveur et ensuite utilisée dans un navigateur. Il est utilisé pour annoter des expressions uniques et les relations entre elles. Par conséquent, il n'est pas pratique d'utiliser BRAT pour annoter des textes plus longs tels que des paragraphes. Les documents d'entrée doivent être des fichiers texte. Il est souvent avancé que la présentation de l'interface utilisateur (UI) du fichier texte dans BRAT ne correspond pas à son formatage d'origine. Pour ces raisons, BRAT n'est pas considéré comme un outil idéal pour l'annotation de documents structurés si vous préférez annoter directement des PDF. Les annotations sont également stockées dans des fichiers texte. BRAT dispose de quelques fonctionnalités majeures pour la collaboration annotation , à savoir la prise en charge de plusieurs utilisateurs et l'intégration d'un comparateur d'annotations.
DOCCANO est un autre outil d'annotation destiné principalement aux fichiers texte. Il est considéré comme plus facile et plus simple à utiliser que BRAT. Comme BRAT, il fonctionne sur serveur et dispose d'une interface utilisateur par navigateur. Toutefois, il diffère de BRAT en ce sens que la configuration, quelle qu'elle soit, est effectuée dans l'interface utilisateur Web. Son utilisation est limitée à la classification de documents, à la séquence annotation et à la séquence à séquence. DOCCANO est surtout plus convivial que BRAT et, selon le cas d'utilisation choisi, les annotations sont uniquement au niveau du document ou de la portée. En fonction du type de projet, vous pouvez déterminer les options du format d'exportation des annotations, qui peut être CSV ou JSON. Là encore, DOCCANO autorise plusieurs utilisateurs. Cependant, contrairement à BRAT, DOCCANO ne dispose pas de fonctionnalités supplémentaires pour la collaboration annotation. DOCCANO offre également deux fonctions supplémentaires qui ne sont pas disponibles dans BRAT. Il s'agit de la rédaction et de la sauvegarde des lignes directrices annotation directement dans l'application (en Markdown) et de l'obtention d'une vue d'ensemble schématique de base des statistiques annotation .
INCEpTION est le projet qui fait suite à WebAnno. De même, INCEpTION utilise une interface utilisateur de type navigateur. Il peut être utilisé de diverses manières, soit par un groupe d'utilisateurs sur un serveur, soit en tant que version autonome. INCEpTION est considéré comme un outil plus lourd que DOCCANO ou BRAT. Il peut être utilisé pour des fichiers texte ou des PDF contenant des informations textuelles. INCEpTION dispose d'une fonction étendue qui vous permet de configurer pratiquement tout. Là encore, il facilite la collaboration à l'adresse annotation et peut évaluer statistiquement les annotations tout en exportant les annotations dans un large éventail de formats courants de Natural Learning Process (processus d'apprentissage naturel) annotation . Néanmoins, INCEpTION peut être compliqué à utiliser au début, et il a été conseillé d'ignorer les fonctionnalités qui sont complexes à utiliser. La plupart des utilisateurs sont attirés par INCEpTION en raison de sa capacité à traiter les PDF annotation .
BRAT est livré avec des instructions détaillées sur la manière de l'installer. Si vous souhaitez simplement installer et exécuter brat sur votre machine locale, alors le serveur autonome est ce qu'il vous faut. Tout d'abord, vous devez placer la section "données" des instructions pour apprendre comment configurer les fichiers d'annotation. Comme BRAT n'est pas compatible avec Python, vous devrez modifier la commande python standalone.py en python2 standalone.py. BRAT est réputé pour fonctionner exceptionnellement bien avec Google Chrome.
DOCCANO est plus facile à utiliser. Lors de l'installation de DOCCANO, vous n'avez pas nécessairement besoin de comprendre ce qu'est Docker. Cela peut être fait à condition que Docker soit installé. Pour vous familiariser avec ses fonctionnalités, essayez les démos en direct de Doccano.
INCEpTION fournit un guide de l'utilisateur complet qui décrit en détail comment l'installer et l'exécuter. L'exécution d'INCEPTION est particulièrement facile, car vous pouvez exécuter le fichier JAR téléchargé sans l'installer.
BRAT permet de configurer un schéma annotation spécifique à un projet au moyen de fichiers .conf. L'utilisation de brat est assez simple. Tout d'abord, vous devez marquer une zone de texte qui ouvre un menu contextuel. Les options du menu peuvent dépendre de la configuration du schéma annotation . Toutefois, il est nécessairement facile de marquer l'espace exact souhaité. En outre, si l'espace marqué est trop long, le menu contextuel risque de ne pas tenir à l'écran.
INCEPTION exige beaucoup de configurations. INCEPTION a une grande capacité de PDF annotation . Lors de la création d'un nouveau projet, vous devez tout d'abord créer un nouveau projet, puis importer un document. Ensuite, vous devez définir un annoter, modifier les paramètres du visualiseur de documents pour afficher le document en tant que fichier PDF et ensuite annoter le document.
Contrairement à INCEpTION, DOCCANO ne demande pas trop de configuration. DOCCANO vous permet de créer et d'éditer des annotations directement dans l'interface utilisateur du navigateur, ainsi que des directives annotation . Pour vous familiariser avec les fonctionnalités de DOCCANO, il est recommandé d'essayer les démonstrations en direct de DOCCANO.
Isahit offre une solution complète annotation développée spécifiquement pour le traitement de texte.
Un service unique qui combine des outils annotation personnalisables, un chef de projet dédié et un force de travail formé pour chacun de vos besoins. Une plateforme conçue et construite avec des équipes de data science afin d'offrir une solution qui vous suit dans toutes les étapes de votre projet de traitement du langage naturel.
Il s'agit d'un outil d'annotation de texte qui peut être utilisé pour annoter du texte automatiquement ou manuellement. Tagtog prend en charge l'annotation PDF et inclut des modèles NER pré-entraînés pour l'annotation automatique de textes.
Scale fournit des services d'annotation de texte tels que la catégorisation de texte, la comparaison et la transcription OCR. Scale fournit des services d'annotation de données computer vision et NLP .
L'outil d'annotation de texte LightTag est une plateforme permettant aux annotateurs et aux entreprises de annoter leurs données textuelles en interne.
Il s'agit d'un outil d'annotation de texte qui permet de classer et d'annoter efficacement les données médicales. KConnect fournit des services d'annotation sémantique, d'analyse de texte et de recherche sémantique pour les informations médicales.
Nous disposons d'une large gamme de solutions et d'outils qui vous aideront à former vos algorithmes. Cliquez ci-dessous pour en savoir plus !