Como os modelos de IA foram treinados? A Biblioteca Digital da Humanidade
Aprendemos que os modelos de aprendizado profundo aprendem com dados, mas a grande escala desse processo é quase difícil de compreender. Como você ensina uma máquina a entender a linguagem, a razão e até mesmo a escrever poesia? Você dá a ele uma biblioteca maior do que qualquer outra que já existiu: a internet.
Em essência, treinar um grande modelo de linguagem (LLM) como o ChatGPT ou o Gemini é como colocar um aluno com uma memória perfeita e uma quantidade infinita de tempo na maior biblioteca do mundo e pedir que ele leia tudo. O modelo digitaliza trilhões de palavras e frases de sites, livros, artigos e artigos científicos. Ele não “entende” no sentido humano, mas aprende as relações estatísticas entre as palavras. Ele aprende que “o céu é” provavelmente será seguido por “azul”. Ele aprende os padrões gramaticais, o fluxo de uma história e a estrutura de um argumento lógico. Essa fase inicial de leitura massiva é o que dá ao modelo seu conhecimento geral sobre o mundo.
O processo de treinamento em duas etapas
Passar de um modelo bruto e experiente para um assistente de IA útil envolve alguns estágios principais.
- Etapa 1: Pré-treinamento (Construindo o cérebro): Esta é a fase massiva de leitura da biblioteca. A IA recebe um grande conjunto de dados — uma parte significativa da Internet pública — e uma tarefa simples: prever a próxima palavra em uma frase. Ao fazer isso trilhões de vezes, ele constrói uma rede neural complexa que entende padrões, fatos e conceitos da linguagem. Após esse estágio, a IA é experiente, mas não necessariamente útil ou segura.
- Etapa 2: Ajuste fino (ensinando boas maneiras): É aqui que os humanos entram para aperfeiçoar o modelo. Em um processo geralmente chamado de Aprendizado por Reforço com Feedback Humano (RLHF), os treinadores humanos conversam com a IA. Eles classificam suas respostas, mostrando quais respostas são boas, úteis e seguras e quais são ruins, tóxicas ou inúteis. O modelo é então “recompensado” por produzir respostas semelhantes aos bons exemplos e “penalizado” pelos maus exemplos. Esse processo é como ensinar o aluno experiente a ser um conversador educado, prestativo e seguro.
Conceito-chave: todos nós contribuímos para o treinamento de IA
A IA foi treinada com dados publicamente disponíveis na internet, incluindo conteúdo de mídias sociais, blogs e outras plataformas. Isso significa que a IA aprendeu com uma ampla variedade de expressões e conhecimentos humanos.
Verificação rápida
Qual é o objetivo principal do estágio de “ajuste fino” do treinamento de IA?
Recapitulação: Como os modelos de IA foram treinados
O que abordamos:
- Os modelos de IA são treinados em um processo de duas etapas: “pré-treinamento” massivo em dados públicos da Internet, seguido por um “ajuste fino” com feedback humano.
- A fase de pré-treinamento fornece ao modelo seu vasto conhecimento geral ao aprender padrões estatísticos na linguagem.
- A fase de ajuste fino (usando métodos como o RLHF) ensina o modelo a ser útil, seguro e conversacional.
- Essencialmente, o conhecimento coletivo da humanidade na Internet pública serviu como livro didático para a IA moderna.
Por que isso importa:
- Saber como a IA é treinada ajuda você a entender tanto suas incríveis capacidades quanto suas limitações e preconceitos inerentes. Ela aprendeu conosco, então reflete tanto a melhor quanto a pior das informações que colocamos on-line.
A seguir:
- Exploraremos como você pode treinar sua própria IA e o que significa “ajustar” um modelo para tarefas específicas.