En cliquant sur "Accepter", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
30 août 2022

Principaux ensembles de données publiques pour l'apprentissage automatique

30 août 2022

Principaux ensembles de données publiques pour l'apprentissage automatique

Qu'est-ce qu'un ensemble de données d'apprentissage automatique ?

En termes simples, un ensemble de données dans l'apprentissage automatique est une collection de bits de données qui peuvent être considérés comme un bloc cohésif par un ordinateur à des fins d'analyse et de projection. Rassembler des données en corrélation avec les résultats que vous souhaitez prévoir, c'est-à-dire des données qui portent une indication sur des situations qui vous intéressent, voilà ce qu'implique l'obtention de données appropriées.

Qu'est-ce que l'apprentissage automatique ?

L'apprentissage automatique (ML) est une sorte de technologie d'intelligence artificielle (IA) qui permet aux applications logicielles d'améliorer leur précision de prédiction sans être expressément conçues pour cela. Afin de prévoir de nouvelles valeurs de sortie, les algorithmes d'apprentissage automatique utilisent des données historiques en entrée. L'apprentissage automatique est important car il permet aux entreprises d'avoir un aperçu du comportement de leurs clients et de leurs modes de fonctionnement, tout en contribuant au développement de nouveaux produits.

Chercheurs de données

Les ensembles de données sont les chemins sur lesquels les algorithmes d'apprentissage automatique se déplacent. Tout algorithme d'apprentissage automatique qui ne les inclut pas échouera dans la catégorisation de textes, la segmentation de produits et l'exploration de textes.

Kaggle : Cette plateforme de science des données propose de nombreux ensembles de données intéressants, fournis par les utilisateurs, pour l'informatique cognitive.

Le dépôt d'apprentissage automatique de l'UCI est une ressource de référence pour les ensembles de données ouverts depuis des décennies. Les utilisateurs peuvent également accéder aux informations sans s'inscrire.

Recherche de données sur Google : Dataset Search propose plus de 25 millions de jeux de données sur Internet.

Jeux de données ML

1. Ensemble de données IRIS: Le jeu de données iris est un jeu de données convivial pour les débutants qui offre des données sur la largeur des pétales et des sépales des fleurs. Les données sont séparées en trois catégories, chacune comportant 50 lignes. Il est couramment utilisé dans les analyses de classification et de régression.

2. Ensemble de données sur les clients des centres commerciaux: Cet ensemble de données contient des données sur les individus qui visitent un centre commercial dans une ville spécifique. Le sexe, l'identifiant du client, l'âge, le revenu moyen et la note de dépense font partie des groupes de l'ensemble de données. Il est le plus souvent utilisé pour diviser les clients en groupes en fonction de leur âge, de leur richesse et de leurs intérêts.

3. Lexique de sentiments pour 81 langues: Ce jeu de données comprend des lexiques de sentiments pour plus de 81 langues exotiques, avec des attitudes positives et négatives évaluées et construites à partir des lexiques de sentiments anglais.

4. ImageNet: Il s'agit du plus grand ensemble de données d'images pour computer vision. Il fournit une base de données d'images utile qui est structurée de manière centralisée.

5. Cinétique-700: Il s'agit d'un vaste ensemble de donnéesaugmentez d'URL de vidéos Youtube. Les actions centrées sur l'homme sont incluses. Il contient près de 700 000 vidéos.

Jeux de données vérifiés par les communautés de la science des données. 

LabelMe est un ensemble de données publié par le MIT à l'adresse computer vision qui permet aux individus de participer en utilisant un outil d'annotation. Les photos peuvent être téléchargées ou travaillées en ligne à l'aide de la boîte à outils MatLab.

Google Open Images est un grand ensemble de données (comme il sied à toutes les contributions de Google) qui comprend des connexions à des millions d'images publiques annotées, organisées en milliers de catégories. Pour une sécurité encore plus grande, les images sont sous une licence Creative Commons.

VisualGenome est un magasin de connaissances contenant plus de 100 000 images et des millions de caractéristiques annotées, d'interconnexions et de réponses à des questions visuelles. VisualGenome est un projet en cours intégrant "des concepts d'images organisées au langage".

Amazon Reviews est un ensemble de données contenant environ 35 millions d'évaluations et de critiques des deux dernières décennies, ainsi que le produit auquel elles sont liées.

MS Marco (Microsoft Machine Reading Comprehension Dataset) est une ressource Microsoft pour l'apprentissage profond dans la recherche.

Conclusion.

Un bon jeu de données est essentiel pour la réussite d'un modèle d'apprentissage automatique. Tenez compte du fait que l'ensemble de données doit répondre aux besoins de votre projet. La quantité d'occurrences, l'équilibre du jeu de données et le fait qu'il comprenne tous les éléments que vous devez classer sont autant de facteurs importants à prendre en compte. Ensuite, à l'aide de ces outils de recherche de données, choisissez celui qui fournira le meilleur cadre de données pour le modèle d'IA que vous créez. 

Vous pourriez également aimer
ces autres articles

Vous voulez faire grandir vos projets de labellisation de données
et le faire de manière éthique ?

Nous disposons d'une large gamme de solutions et d'outils qui vous aideront à former vos algorithmes. Cliquez ci-dessous pour en savoir plus !