Comment les modèles d'IA ont-ils été formés ? La bibliothèque numérique de l'humanité
Nous avons appris que les modèles d'apprentissage profond tirent des leçons des données, mais l'ampleur de ce processus est presque difficile à comprendre. Comment apprendre à une machine à comprendre le langage, à raisonner et même à écrire de la poésie ? Vous lui offrez une bibliothèque plus grande que toutes celles qui ont jamais existé : Internet.
Essentiellement, former un grand modèle linguistique (LLM) tel que ChatGPT ou Gemini revient à placer un étudiant doté d'une mémoire parfaite et d'une durée infinie dans la plus grande bibliothèque du monde et à lui demander de tout lire. Le modèle scanne des milliards de mots et de phrases provenant de sites Web, de livres, d'articles et d'articles scientifiques. Il ne « comprend » pas au sens humain du terme, mais il apprend les relations statistiques entre les mots. Il apprend que « le ciel est » est très probablement suivi de « bleu ». Il apprend les modèles de grammaire, le déroulement d'une histoire et la structure d'un argument logique. C'est cette phase initiale de lecture massive qui donne au modèle ses connaissances générales sur le monde.
Le processus de formation en deux étapes
Passer d'un modèle brut et compétent à un assistant d'IA utile implique quelques étapes clés.
- Étape 1 : Pré-entraînement (renforcement du cerveau) : Il s'agit de la phase de lecture massive en bibliothèque. L'IA dispose d'un énorme ensemble de données (une partie importante de l'Internet public) et d'une tâche simple : prédire le mot suivant d'une phrase. En faisant cela des milliards de fois, il crée un réseau neuronal complexe qui comprend les modèles, les faits et les concepts du langage. Après cette étape, l'IA est compétente, mais elle n'est pas nécessairement utile ou sûre.
- Étape 2 : peaufiner (enseigner les bonnes manières) : C'est là que les humains entrent en scène pour peaufiner le modèle. Dans le cadre d'un processus souvent appelé apprentissage par renforcement avec rétroaction humaine (RLHF), les entraîneurs humains discutent avec l'IA. Ils classent ses réponses, en indiquant celles qui sont bonnes, utiles et sûres, et celles qui sont mauvaises, toxiques ou inutiles. Le modèle est ensuite « récompensé » pour avoir produit des réponses similaires aux bons exemples et « pénalisé » pour les mauvais exemples. Ce processus revient à enseigner à un étudiant averti comment être un interlocuteur poli, serviable et sûr.
Concept clé : nous avons tous contribué à la formation en IA
L'IA a été formée à partir de données accessibles au public sur Internet, notamment du contenu provenant de réseaux sociaux, de blogs et d'autres plateformes. Cela signifie que l'IA a tiré des leçons d'un large éventail d'expressions et de connaissances humaines.
Contrôle rapide
Quel est l'objectif principal de la phase de « peaufinage » de la formation à l'IA ?
Récapitulatif : Comment les modèles d'IA ont été formés
Ce que nous avons abordé :
- Les modèles d'IA sont entraînés selon un processus en deux étapes : une « pré-formation » massive sur les données Internet publiques, suivie d'un « ajustement » avec le feedback humain.
- La phase de pré-formation donne au modèle ses vastes connaissances générales en apprenant les modèles statistiques du langage.
- La phase de mise au point (à l'aide de méthodes telles que la RLHF) apprend au modèle à être utile, sûr et conversationnel.
- Essentiellement, le savoir collectif de l'humanité sur l'Internet public a servi de manuel à l'IA moderne.
Pourquoi c'est important :
- Savoir comment l'IA est entraînée vous aide à comprendre à la fois ses incroyables capacités ainsi que ses limites et ses biais inhérents. Il a appris de nous, de sorte qu'il reflète à la fois le meilleur et le pire des informations que nous avons mises en ligne.
Prochaine étape :
- Nous verrons comment vous pouvez entraîner votre propre IA et ce que signifie « peaufiner » un modèle pour des tâches spécifiques.