Le Few Shot Learning, c’est quoi ?
Le Few Shot Learning (FSL) est un cadre de programmation en Machine Learning qui permet à un modèle d’intelligence artificielle d’apprendre à faire des prédictions précises à partir de quelques exemples étiquetés. Il est entraîné à reconnaître des motifs et des caractéristiques généraux applicables à diverses tâches. Cette méthode est particulièrement utile dans des domaines où les données sont limitées, comme la reconnaissance d’images et le traitement du langage.
Que signifie Few Shot Learning ?
Le Few Shot Learning (FSL) est un framework du domaine du Machine Learning c’est-à-dire une structure de base pour le développement de codes de programmation. Il est utilisé pour entraîner les modèles d’IA à faire des prédictions précises à partir d’une petite quantité de données d’entraînement. Alors que les méthodes de Machine Learning traditionnelles nécessitent souvent des milliers de points de données pour fournir des résultats fiables, le Few Shot Learning (apprentissage par petites touches ou micro-apprentissage) vise à optimiser l’apprentissage avec un minimum de données.
L’objectif principal du Few Shot Learning est un apprentissage efficace à partir de quelques exemples seulement. En travaillant avec une quantité minimale de données, le FLS s’avère particulièrement utile dans les situations où il est difficile de collecter de grandes quantités de données étiquetées. Bien souvent, les coûts sont tout simplement trop élevés, mais il arrive aussi que seuls quelques exemples ou échantillons soient disponibles. C’est le cas, par exemple, pour les maladies rares et les manuscrits uniques.
- Créez votre site Web en un temps record
- Boostez votre activité grâce au marketing par IA
- Gagnez du temps et obtenez de meilleurs résultats
Le Few Shot Learning peut être considéré comme un sous-groupe du n-Shot-Learning. Cela signifie que le FLS représente généralement un système de catégorisation dit N-Way-K-Shot ; « N » représentant le nombre de classes et « K » le nombre d’exemples fournis pour chaque classe. Ce domaine de l’intelligence artificielle comprend également le One Shot Learning (un exemple étiqueté par classe) et le Zero Shot Learning (aucun exemple étiqueté). Le premier est considéré comme une variante sophistiquée du FLS, le second comme un problème d’apprentissage à part entière.
Comment fonctionne le Few Shot Learning ?
Même si des algorithmes spéciaux et des réseaux neuronaux réussissent de nombreuses tâches de FLS, le Few Shot Learning est avant tout défini par le problème d’apprentissage spécifique plutôt que par l’utilisation d’une structure de modèle particulière. L’éventail des méthodes FSL est donc très large et va de l’adaptation de modèles pré-entraînés à l’utilisation de modèles génératifs en passant par le Meta Learning (méta-apprentissage). Découvrez les différentes approches ci-dessous.
Apprentissage par transfert
Les approches basées sur l’apprentissage par transfert se concentrent sur l’adaptation de modèles déjà pré-entraînés pour maîtriser de nouvelles tâches. Au lieu de former un modèle à partir de zéro, elles utilisent des caractéristiques et des représentations déjà acquises, les ajustant finement pour les appliquer à une nouvelle tâche. Cela permet d’éviter le surajustement qui résulte souvent de l’apprentissage supervisé avec peu d’exemples étiquetés, en particulier pour les modèles avec un grand nombre de paramètres comme les réseaux neuronaux convolutifs.
Une procédure courante consiste à configurer un modèle de classification en entraînant de nouvelles classes de données à l’aide de très peu d’exemples. Les procédés de Few Shot Learning plus complexes impliquent souvent une adaptation de l’architecture du réseau. L’apprentissage par transfert est particulièrement efficace lorsqu’il existe de fortes similitudes entre la tâche initiale et la nouvelle tâche ou lorsque l’entraînement initial a eu lieu dans un contexte similaire.
Approche par les données
Le Few Shot Learning basé sur les données repose sur l’idée de générer des données d’apprentissage supplémentaires afin de résoudre le problème de l’échantillonnage limité. Cette méthode s’avère particulièrement pratique dans les situations où les exemples empruntés au monde réel sont extrêmement rares, comme c’est le cas pour les espèces nouvellement découvertes. Dans le cas d’échantillons suffisamment diversifiés, il est possible de générer des données supplémentaires similaires à celles-ci, par exemple via des modèles génératifs tels que les Generative Adversarial Networks, en français réseaux antagonistes génératifs. Il est, par ailleurs, possible de combiner l’extension des données avec d’autres méthodes telles que le méta-apprentissage.
Meta Learning
Le méta-apprentissage suit une approche plus large et plus indirecte que l’apprentissage par transfert classique et que l’apprentissage supervisé car le modèle n’est pas uniquement entraîné sur des tâches correspondant à son utilisation prévue. Il apprend à résoudre des tâches dans un contexte donné à court terme, tout en identifiant à long terme des schémas et des structures transversales entre les différentes tâches. Cela permet de faire des prédictions sur le degré de similarité entre des points de données de différentes classes et d’utiliser ces connaissances pour résoudre des tâches ultérieures.
Méta-apprentissage basé sur les métriques
Les approches du méta-apprentissage basé sur les métriques ne modélisent pas directement les limites de classification, mais des valeurs continues pour représenter un échantillon de données spécifique. Les inférences reposent sur l’apprentissage de nouvelles fonctionnalités qui mesurent la similarité entre la valeur et celles des échantillons et des classes individuelles. Les différents algorithmes FSL basés sur les métriques sont les suivants :
- Les réseaux siamois utilisent l’apprentissage par contraste pour résoudre des problèmes de classification binaire. Pour ce faire, ils vérifient si deux échantillons représentent une paire positive (correspondance) ou négative (non-correspondance).
- Les réseaux de matching (appariement) sont également capables d’effectuer des classifications multiples. Ils s’appuient sur un réseau neuronal approprié pour produire un classement pour chaque échantillon au sein des ensembles de support et de requête. Les réseaux de matching prédisent la classification en comparant les échantillons de soutien et de requêtes.
- Les réseaux prototypiques déterminent les caractéristiques moyennes des échantillons fournis pour toutes les classes afin de calculer un prototype pour chaque classe. Les points de données individuels sont catégorisés en fonction de leur proximité relative avec les prototypes spécifiques à la classe’
- Les réseaux de relation (RN) utilisent également un module d’embedding, mais intègrent en plus un module de relations qui génère une fonction de distance non linéaire adaptée au problème de classification en question.
Méta-apprentissage basé sur l’optimisation
Les méthodes basées sur l’optimisation du Few Shot Learning ont pour objectif de créer de premiers modèles ou hyperparamètres pour les réseaux neuronaux pouvant être adaptés efficacement à des tâches pertinentes. Pour ce faire, ils soutiennent le processus d’optimisation par la méta-optimisation (c’est-à-dire d’autres méthodes d’optimisation), également connue sous le nom de descente de gradient.
La méthode FSL basée sur l’optimisation la plus connue est le model agnostic meta-learning (MAML), soit en français le méta-apprentissage agnostique. Celui-ci ne se concentre pas sur une tâche particulière, mais s’applique à tous les modèles qui apprennent par descente de gradient. Il est également possible d’utiliser des réseaux dits LSTM (LSTM = Long Short-Term Memory) pour entraîner des modèles de méta-apprentissage. La particularité de l’optimisation par représentation latente (LEO, Latent Embedding Optimization) réside dans le fait qu’elle apprend une distribution générative de paramètres de modèles spécifiques à la tâche.
Quels sont les principaux domaines d’application du Few Shot Learning ?
Le Few Shot Learning peut être utilisé de manière très variée. De fait, de nombreux secteurs et domaines de recherche profitent de la capacité d’apprendre efficacement en dépit d’un petit nombre d’exemples. Les principaux domaines d’application sont :
- Computer Vision : la plupart des algorithmes FSL les plus utilisés ont été initialement développés pour des tâches de classification d’images. Cependant, le Few Shot Learning est également adapté à des problèmes de Computer Vision (vision par ordinateur) plus complexes, tels que la reconnaissance d’objets, qui nécessite de localiser avec précision les différents détails de l’image.
- Robotique : le Few Shot Learning a le potentiel d’aider les robots à s’orienter plus rapidement dans de nouveaux environnements et à accomplir de nouvelles tâches plus rapidement.
- Traitement du langage : les méthodes de FLS, en particulier l’apprentissage par transfert, aident à adapter des Large Language Models pré-entraînés avec de grandes quantités de données à des tâches spécifiques pour lesquelles une compréhension contextuelle est nécessaire. Il s’agit entre autres de la classification de textes et de l’analyse de l’humeur.
- Santé publique : en raison de sa capacité à saisir ou à apprendre rapidement des classes de données inconnues et rares, le Few Shot Learning est idéal pour les domaines médicaux où l’obtention de données étiquetées peut s’avérer difficile. Un exemple typique est le diagnostic de maladies rares.
- Secteur bancaire : les organismes de crédit utilisent les algorithmes FSL dans le cadre de la détection des fraudes afin d’identifier des modèles ou des comportements anormaux dans les transactions financières. C’est efficace même si peu de cas de fraude sont disponibles sous forme de données.
Enjeux concrets liés à la mise en œuvre du Few Shot Learning
La mise en œuvre du Few Shot Learning implique plusieurs défis concrets : l’un des principaux obstacles est le risque d’overfitting (surajustement ou surapprentissage). Les modèles avec peu d’exemples d’entraînement ont tendance à apprendre trop fortement des données existantes et donc à mal généraliser. En outre, le Few Shot Learning présuppose que les modèles soient adaptés et ajustés avec beaucoup de soin afin d’obtenir une bonne performance.
De même, la qualité des données disponibles est un facteur déterminant de réussite : si les quelques exemples ne sont pas représentatifs ou contiennent des erreurs, la performance du modèle peut en être fortement compromise. Par ailleurs, le nombre limité de données rend difficile la sélection de caractéristiques et de méthodes appropriées pour élargir l’ensemble des données. Il ne faut pas non plus sous-estimer les ressources de calcul et le temps nécessaire pour l’entraînement de modèles optimisés Few Shot Learning.