¿Quién es el mejor? Juzgando a la IA con un campo de batalla
Tenemos miles de modelos de IA disponibles, desde gigantes como OpenAI y Google hasta innumerables proyectos de código abierto. Esto plantea una pregunta simple pero profunda: ¿cómo sabemos cuál es el «mejor»? Los puntos de referencia académicos tradicionales, en los que los modelos responden a un conjunto fijo de preguntas, pueden resultar útiles, pero a menudo no reflejan cómo se siente una IA al interactuar con ella. También pueden ser manipulados por desarrolladores que entrenan sus modelos específicamente para superar esas pruebas.
Para solucionar este problema, los investigadores de la Large Model Systems Organization (LMSYS) crearon una solución ingeniosa: el Chatbot Arena. En lugar de un examen estático, se trata de una competición dinámica y continua en la que personas reales votan por la IA que prefieren en una batalla cara a cara. No se parece tanto a un examen final como a un torneo interminable de IA llamado «El rey de la colina».
Concepto destacado: ¿Cómo funciona la arena
La magia del Chatbot Arena es su formato de «prueba de gusto a ciegas», que está diseñado para eliminar los prejuicios humanos y captar una preferencia genuina. El sistema funciona con un ingenioso método de puntuación inspirado en el mundo del ajedrez.
- La batalla a ciegas: cuando visitas la arena, escribes un mensaje. El sistema envía tu mensaje a dos modelos de IA diferentes, elegidos al azar. Sus respuestas aparecen una al lado de la otra como «Modelo A» y «Modelo B», sin nombres adjuntos.
- La votación: chateas con ambas modelos anónimas. Una vez que decidas cuál te ha dado la mejor respuesta, la más útil o la más creativa, votas por el modelo A, el modelo B o lo declaras empatado.
- La revelación y la valoración: después de votar, el sistema revela la verdadera identidad de las modelos con las que has estado chateando. Luego, su voto se usa para ajustar la puntuación de cada modelo utilizando el sistema de calificación Elo.
El sistema de puntuación Elo otorga una puntuación a cada modelo. Cuando un modelo gana una batalla, su puntuación Elo sube y la del perdedor baja. Ganar contra un modelo con una calificación más alta te da más puntos que ganar contra uno con una calificación más baja. Con millones de votos de usuarios de todo el mundo, este sistema crea una tabla de clasificación sólida y constantemente actualizada basada exclusivamente en las preferencias humanas.
¿Cómo leer la tabla de clasificación de Chatbot Arena
La tabla de clasificación está repleta de información. Aquí te explicamos cómo encontrarle sentido.
- Visita la tabla de clasificación: puedes encontrar la tabla de clasificación en directo en el sitio web de Hugging Face o buscando «Tabla de clasificación de Chatbot Arena».
- Comprueba la puntuación Elo: este es el número de clasificación principal. Una puntuación Elo más alta significa que el modelo gana con más frecuencia en las comparaciones cara a cara basadas en los votos de los usuarios. Esta puntuación refleja su capacidad general de «chat» y su utilidad.
- Observa el intervalo de confianza del 95%: junto a la puntuación Elo, verás una barra pequeña o números como «+/- 10". Este es el «margen de error». Si las barras del intervalo de confianza de dos modelos diferentes se superponen, significa que sus puntuaciones están muy próximas y que se encuentran en un empate estadístico.
- Referencia cruzada con MT-Bench: algunas tablas de clasificación también muestran una puntuación de «MT-Bench». Se trata de una puntuación de un punto de referencia automatizado más tradicional que pone a prueba la capacidad de un modelo para seguir instrucciones complejas de varios pasos. Es una buena forma de comprobar si un modelo simplemente habla con fluidez o si también es bueno en tareas difíciles.
Puntos fuertes y débiles del método Arena
El Chatbot Arena es una herramienta fantástica, pero es importante entender qué mide y qué no.
¿Para qué sirve
- Medir la «sensación»: es la mejor medida de las cualidades subjetivas, como la amabilidad, el estilo de escritura y la personalidad, que los puntos de referencia tradicionales pasan por alto.
- Reducir el sesgo: el formato ciego evita que los usuarios prefieran un modelo solo por su famoso nombre.
- Uso en el mundo real: las instrucciones provienen de personas reales que preguntan sobre cosas reales, no de un conjunto fijo de preguntas académicas.
- Mantenerse al día: puede evaluar nuevos modelos muy rápidamente, manteniendo el ritmo acelerado del desarrollo de la IA.
Limitaciones importantes
- No es un verificador de datos: una puntuación Elo alta significa que los usuarios prefieren un modelo, no que sea más preciso o veraz.
- Clasificación generalista: la tabla de clasificación clasifica la habilidad de chat general. Un modelo que tenga una clasificación más baja en general podría seguir siendo el mejor en un nicho específico, como la codificación, la medicina o el análisis legal.
- Puede favorecer la «conversación»: a veces los usuarios prefieren una respuesta más larga, más detallada o más «entusiasta», aunque una respuesta más corta sea más correcta. Esto puede sesgar las clasificaciones.
Sitios Web de Clasificación que Utilizo
Para evaluar y comparar modelos de IA, estos son los sitios web clave que consulto:
- LM Arena Leaderboard: Vea cómo se comparan los modelos líderes en texto, imagen, visión y más allá. Esta página le brinda una instantánea de cada Arena, y puede explorar conocimientos más profundos en sus pestañas dedicadas.
- Artificial Analysis Leaderboards: Comparación y clasificación del rendimiento de más de 30 modelos de IA (LLMs) en métricas clave que incluyen calidad, precio, rendimiento y velocidad (velocidad de salida - tokens por segundo y latencia - TTFT), ventana de contexto y otros.
Comprobación rápida
¿Cuál es el principio fundamental del sistema de clasificación de Chatbot Arena?
Resumen: Clasificación de modelos de IA
Lo que cubrimos:
- El desafío de clasificar los modelos de IA y cómo el Chatbot Arena ofrece una solución única basada en las preferencias humanas.
- Cómo funciona la Arena utilizando un sistema de votación a ciegas y cara a cara y el método de puntuación Elo del ajedrez.
- Cómo leer la tabla de clasificación observando la puntuación Elo y los intervalos de confianza.
- Los puntos fuertes de este método (medir la sensación en el mundo real) y sus limitaciones (no es un verificador de datos).
Por qué es importante:
- La clasificación de Chatbot Arena es una de las clasificaciones más influyentes del mundo de la IA. Si entiendes cómo funciona, podrás dejar de lado las exageraciones del marketing y ver qué modelos encuentran realmente más útiles y agradables de usar para las personas.
A continuación:
- Analizaremos el mundo de los grandes modelos lingüísticos no estadounidenses y exploraremos los principales modelos de IA que se están desarrollando fuera de los Estados Unidos.