Tout ce que vous devez savoir sur la stratégie de recyclage des modèles ML
L'apprentissage continu est une caractéristique des opérations d'apprentissage automatique dans laquelle les modèles d'apprentissage automatique sont réentraînés de manière dynamique et continue pour répondre aux changements dans les données avant d'être redéployés.
Une fois que vous avez déployé votre modèle d'apprentissage automatique en production, les différences dans les données du monde réel entraîneront une dérive du modèle. Un réentraînement et un redéploiement seront donc probablement nécessaires. En d'autres termes, le recyclage et le redéploiement doivent être considérés comme un processus continu.
La dérive d'un modèle est la dégradation de la capacité de prédiction d'un modèle au fil du temps en raison d'un changement dans l'environnement qui contredit les prédictions du modèle. Le terme "dérive du modèle" est un peu trompeur car ce qui change, c'est l'environnement dans lequel le modèle fonctionne, et non le modèle lui-même. Par conséquent, la dérive des notions est peut-être un nom plus approprié, mais les deux noms représentent le même processus. Ce concept de dérive du modèle englobe un certain nombre de facteurs qui peuvent changer.
1. Les modèles d'apprentissage automatique deviennent obsolètes au fil du temps : Dès que votre modèle d'apprentissage automatique est déployé en production, ses performances se détériorent. Cela est dû au fait que votre modèle réagit aux variations du monde réel, et que le comportement des utilisateurs évolue avec le temps. Même si tous les modèles d'apprentissage automatique se dégradent avec le temps, la vitesse à laquelle ils se dégradent varie. La dérive des données, la dérive des concepts ou les deux sont les causes les plus courantes.
2. Le pipeline de recyclage permet aux développeurs de s'assurer que des mesures quantitatives et des tests d'explicabilité intellectuellement défendables sont mis en place, car le pipeline doit fonctionner de manière fiable sans intervention humaine. Cela augmente la crédibilité interne et externe du modèle.
Formation périodique : En décidant d'un intervalle de réentraînement pour votre modèle, vous pouvez anticiper le moment où votre processus de réentraînement sera activé. Cela dépend de la fréquence à laquelle vous rafraîchissez vos données d'entraînement.
Déclenchement basé sur la performance : Dans cette approche, une reconstruction est déclenchée parce que les performances du modèle se sont détériorées en production. Si les performances de votre modèle passent en dessous d'un certain seuil, le pipeline de reconditionnement est automatiquement déclenché.
Déclenchement basé sur les changements de données : Vous pouvez détecter les changements dans la distribution de vos données en observant vos données sources en production. Cela peut signifier que votre modèle n'est plus à jour ou que vous travaillez dans un environnement où les choses évoluent rapidement.
Le réentraînement à la demande : Il s'agit d'une méthode manuelle de réentraînement de vos modèles, qui utilise généralement des procédures classiques. Cette méthode peut aider votre modèle à être plus performant, mais ce n'est pas la meilleure.
Taille de fenêtre fixe : Il s'agit d'une méthode simple de sélection des données d'entraînement, à laquelle il faut réfléchir si vos données sont trop volumineuses pour être prises en compte.
Fenêtre dynamique : Cette méthode détermine la quantité de données statistiques à utiliser pour réentraîner votre modèle en passant en boucle par plusieurs tailles de fenêtres pour trouver la meilleure.
Sélection de sous-échantillons représentatifs : Cette méthode utilise des points de données qui sont similaires aux données de production. Pour ce faire, vous devez d'abord effectuer un examen approfondi de vos données de production et éliminer les données qui indiquent la présence de dérive.
Apprentissage continu vs. apprentissage par transfert : L'apprentissage continu, souvent appelé apprentissage tout au long de la vie, est un type d'apprentissage automatique qui tente de reproduire l'apprentissage humain. L'apprentissage par transfert est une méthode d'apprentissage automatique qui réapprend un nouveau modèle en utilisant un ancien modèle comme base.
Apprentissage hors ligne (par lots) et en ligne (incrémentiel) : L'utilisation de l'apprentissage hors ligne pour réentraîner votre modèle implique de recommencer avec de nouvelles données. Vous réentraînez l'algorithme en permanence en fournissant progressivement des instances de données via l'apprentissage en ligne.
Les données sont utilisées par les modèles d'apprentissage automatique pour "comprendre" un problème et fournir le résultat requis. Nous aimerions croire que le recyclage d'un modèle résoudrait tous les problèmes de performance de votre modèle. Cependant, ce n'est pas toujours le cas ; les choses peuvent mal tourner et de fausses alertes peuvent être déclenchées. Si le suivi est interrompu, par exemple, la distribution des données peut changer. Il est possible que de nouvelles valeurs de caractéristiques apparaissent parce qu'une autre équipe a modifié le format des prix sans vous en informer. Dans certaines circonstances, le recyclage n'est peut-être pas la meilleure solution, mais un suivi approprié vous permettra d'identifier rapidement le problème.
Nous disposons d'une large gamme de solutions et d'outils qui vous aideront à former vos algorithmes. Cliquez ci-dessous pour en savoir plus !