¿Cómo se entrenaron los modelos de IA?

Banner de clase y curso de IA de Jon AI, Stelio Inacio
de Stélio Inácio, fundador de Jon AI y especialista en IA

¿Cómo se entrenaron los modelos de IA? La biblioteca digital de la humanidad

Hemos aprendido que los modelos de aprendizaje profundo aprenden de los datos, pero la magnitud de ese proceso es casi difícil de comprender. ¿Cómo se enseña a una máquina a entender el lenguaje, a razonar e incluso a escribir poesía? Le das una biblioteca más grande que cualquier otra que haya existido: Internet.

En esencia, entrenar un gran modelo lingüístico (LLM) como ChatGPT o Gemini es como meter a un estudiante con una memoria perfecta y una cantidad infinita de tiempo en la biblioteca más grande del mundo y decirle que lo lea todo. El modelo escanea billones de palabras y oraciones de sitios web, libros, artículos y artículos científicos. No «entiende» en el sentido humano, pero aprende las relaciones estadísticas entre las palabras. Aprende que es muy probable que «el cielo es» vaya seguido de «azul». Aprende los patrones de la gramática, el flujo de una historia y la estructura de un argumento lógico. Esta fase inicial de lectura masiva es la que le da al modelo su conocimiento general sobre el mundo.

El proceso de formación en dos pasos

Pasar de un modelo básico y bien informado a un asistente de IA útil implica un par de etapas clave.

  1. Paso 1: Capacitación previa (desarrollo del cerebro): esta es la fase de lectura masiva en la biblioteca. La IA recibe un enorme conjunto de datos (una parte importante de la Internet pública) y una tarea sencilla: predecir la siguiente palabra de una oración. Al hacerlo billones de veces, crea una red neuronal compleja que entiende los patrones, hechos y conceptos del lenguaje. Después de esta etapa, la IA está bien informada, pero no necesariamente es útil o segura.
  2. Paso 2: Perfeccionar (enseñarle modales): Aquí es donde entran los humanos para pulir el modelo. En un proceso que a menudo se denomina aprendizaje por refuerzo con retroalimentación humana (RLHF), los entrenadores humanos mantienen conversaciones con la IA. Clasifican sus respuestas y le muestran qué respuestas son buenas, útiles y seguras, y cuáles son malas, tóxicas o inútiles. Luego, el modelo es «recompensado» por producir respuestas similares a las de los buenos ejemplos y «penalizado» por las malas. Este proceso es como enseñarle al estudiante bien informado cómo ser un conversador educado, servicial y seguro.

Concepto clave: todos contribuimos a la formación en IA

La IA se entrenó con datos disponibles públicamente en Internet, incluido contenido de redes sociales, blogs y otras plataformas. Esto significa que la IA ha aprendido de una amplia gama de expresiones y conocimientos humanos.

Comprobación rápida

¿Cuál es el objetivo principal de la fase de «ajuste» del entrenamiento en IA?

Resumen: Cómo se entrenaron los modelos de IA

Lo que cubrimos:
  • Los modelos de IA se entrenan en un proceso de dos pasos: una «capacitación previa» masiva sobre los datos públicos de Internet, seguida de una «puesta a punto» con la retroalimentación humana.
  • La fase previa al entrenamiento proporciona al modelo un amplio conocimiento general mediante el aprendizaje de patrones estadísticos del lenguaje.
  • La fase de ajuste (utilizando métodos como el RLHF) enseña al modelo a ser útil, seguro y conversacional.
  • Básicamente, el conocimiento colectivo de la humanidad en la Internet pública ha servido de libro de texto para la IA moderna.

Por qué es importante:
  • Saber cómo se entrena la IA te ayuda a entender tanto sus increíbles capacidades como sus limitaciones y sesgos inherentes. Aprendió de nosotros, por lo que refleja tanto lo mejor como lo peor de la información que hemos publicado en Internet.

A continuación:
  • Exploraremos cómo puedes entrenar tu propia IA y qué significa «ajustar» un modelo para tareas específicas.