Por qué es importante la calidad de los datos de entrenamiento de IA

Banner de clases y cursos de IA de Jon AI, Stelio Inacio
de Stélio Inácio, fundador de Jon AI y especialista en IA

Por qué es importante la calidad de los datos de entrenamiento de IA

En el mundo de la IA, hay un refrán atemporal que ahora es más importante que nunca: «La basura entra, la basura sale».

Hemos aprendido que los modelos de IA se entrenan leyendo una colosal biblioteca de información digital. Pero, ¿qué pasa si esa biblioteca está llena de libros mal escritos, errores fácticos y manifiestos odiosos? La IA, como un estudiante diligente pero acrítica, aprenderá de todo ello. No distingue intrínsecamente el bien del mal, ni los hechos de la ficción. Solo conoce los patrones presentes en los datos que le proporcionaron.

La calidad, la diversidad y la precisión de los datos de entrenamiento son el factor más importante que determina la utilidad y la seguridad de una IA. Un modelo basado en un conjunto de datos diverso, seleccionado y de alta calidad será más capaz, coherente y estará más alineado con los valores humanos. Por el contrario, un modelo basado en datos de baja calidad, sesgados o limitados amplificará esos defectos, a menudo de manera impredecible y perjudicial.

Concepto destacado: Garbage In, Garbage Out (GIGO)

GIGO es un principio fundamental de la informática. Significa que la calidad de la salida viene determinada por la calidad de la entrada. Puedes tener el sistema informático más potente y sofisticado del mundo, pero si lo alimentas con datos defectuosos, obtendrás un resultado defectuoso.

Piensa en ello como hornear un pastel. Puedes tener el mejor horno y el panadero más experto, pero si utilizas leche en mal estado y arena en lugar de harina, no obtendrás un pastel delicioso. Vas a conseguir basura.

Para la IA, los datos de entrenamiento son los ingredientes. Si los datos están sesgados, el proceso de «preparación» de la IA dará como resultado un resultado sesgado. Si los datos están llenos de información errónea, la IA le proporcionará con confianza esa misma información errónea. El modelo de IA en sí mismo no es más que el horno; no puede arreglar los malos ingredientes que se le dan.

El impacto de la calidad de los datos

Los datos de los que aprende una IA moldean directamente su «visión del mundo» y sus capacidades. Así es como se comparan los datos buenos y los datos incorrectos.

Efectos de los datos de alta calidad

Los datos limpios, diversos y bien seleccionados conducen a una mejor IA.

  • Precisión basada en los hechos: es más probable que la IA proporcione información correcta y fiable porque ha aprendido de fuentes precisas.
  • Reducción del sesgo: un conjunto de datos que incluya una amplia gama de perspectivas, culturas y voces ayuda a crear una IA menos sesgada y más justa.
  • Coherente y lógico: aprender de un texto bien escrito y estructurado ayuda a la IA a generar respuestas lógicas y fáciles de entender.
  • Mejor rendimiento: la IA se vuelve más capaz y versátil, capaz de gestionar una variedad más amplia de tareas de forma eficaz.

Efectos de los datos de baja calidad

Los datos sesgados, confusos o limitados crean una IA defectuosa.

  • Alucinaciones y errores: si la IA aprende de información errónea, generará con seguridad «hechos» incorrectos, conocidos como alucinaciones.
  • Sesgo perjudicial: si los datos reflejan sesgos sociales históricos (por ejemplo, sexismo o racismo a partir de textos antiguos), la IA los reproducirá y amplificará.
  • Respuestas incoherentes: aprender de datos confusos y desestructurados, como los comentarios de los foros, puede generar resultados absurdos o ilógicos.
  • Habilidades limitadas: una IA entrenada únicamente en poesía será muy mala para escribir código informático. Un conjunto de datos reducido crea una IA limitada.

Comprobación rápida

Si un modelo de IA se basa principalmente en textos históricos del siglo XIX, ¿cuál es el resultado probable?

Resumen: ¿Por qué es importante la calidad de los datos de formación

Lo que cubrimos:
  • La calidad de los resultados de una IA depende totalmente de la calidad de sus datos de entrenamiento, un principio conocido como «basura entra, basura sale».
  • Los datos diversos y de alta calidad conducen a una IA más precisa, menos sesgada y más capaz.
  • Los datos de baja calidad, sesgados o limitados conducen a que la IA cometa errores, reproduzca estereotipos dañinos y tenga habilidades limitadas.
  • Un modelo de IA es tan bueno como los «ingredientes» (datos) de los que se obtiene para aprender.

Por qué es importante:
  • Este es uno de los conceptos más importantes de toda la IA. Explica por qué la IA a veces puede ser errónea, parcial o absurda. Cuando interactúas con una IA, interactúas con un reflejo de los datos con los que se entrenó.

A continuación:
  • Profundizaremos en el tema específico del sesgo de la IA y en cómo el proceso de formación puede conducir a resultados injustos.