Qui est le meilleur ? Évaluer l'IA avec une arène de combat
Nous avons des milliers de modèles d'IA disponibles, qu'il s'agisse de géants tels qu'OpenAI et Google ou d'innombrables projets open source. Cela soulève une question simple mais profonde : comment savoir lequel est le « meilleur » ? Les repères académiques traditionnels, dans lesquels les modèles répondent à un ensemble fixe de questions, peuvent être utiles, mais ils ne reflètent souvent pas la façon dont une IA se sent lorsqu'elle interagit. Ils peuvent également être « joués » par des développeurs qui entraînent leurs modèles spécifiquement pour réussir ces tests.
Pour résoudre ce problème, les chercheurs de la Large Model Systems Organization (LMSYS) ont créé une solution ingénieuse : le Chatbot Arena. Au lieu d'un examen statique, il s'agit d'une compétition dynamique et continue où de vrais humains votent pour l'IA qu'ils préfèrent dans un face-à-face. Cela ressemble moins à un examen final qu'à un interminable tournoi « roi de la colline » pour l'IA.
Pleins feux sur le concept : le fonctionnement de l'aréna
La magie de la Chatbot Arena réside dans son format « test de goût à l'aveugle », conçu pour éliminer les préjugés humains et capturer les véritables préférences. Le système est alimenté par une méthode de notation intelligente empruntée au monde des échecs.
- The Blind Battle : Lorsque vous visitez l'arène, vous entrez un message. Le système envoie votre message à deux modèles d'IA différents, choisis au hasard. Leurs réponses apparaissent côte à côte sous la forme « Modèle A » et « Modèle B », sans nom attaché.
- Le vote : vous discutez avec les deux modèles anonymes. Une fois que vous avez décidé lequel a donné la réponse la meilleure, la plus utile ou la plus créative, vous votez pour le modèle A, le modèle B ou vous déclarez égalité.
- The Reveal & The Rating : Une fois que vous avez voté, le système révèle la véritable identité des modèles avec lesquels vous discutiez. Votre vote est ensuite utilisé pour ajuster le score de chaque modèle à l'aide du système de notation Elo.
Le système de notation Elo attribue un score à chaque modèle. Lorsqu'un mannequin gagne une bataille, son score Elo augmente et le score du perdant diminue. Gagner contre un modèle mieux noté vous donne plus de points que gagner contre un modèle moins bien noté. Avec des millions de votes d'utilisateurs du monde entier, ce système crée un classement robuste et constamment mis à jour, entièrement basé sur les préférences humaines.
Comment lire le classement de Chatbot Arena
Le classement regorge d'informations. Voici comment y donner un sens.
- Visitez le classement : vous pouvez trouver le classement en direct sur le site Web de Hugging Face ou en recherchant « Chatbot Arena Leaderboard ».
- Vérifiez le score Elo : il s'agit du numéro de classement principal. Un score Elo plus élevé signifie que le modèle gagne plus souvent dans les comparaisons directes basées sur les votes des utilisateurs. Ce score reflète sa capacité générale de « chat » et son utilité.
- Regardez l'intervalle de confiance à 95 % : à côté du score Elo, vous verrez une petite barre ou des chiffres tels que « +/- 10 ». Il s'agit de la « marge d'erreur ». Si les barres d'intervalle de confiance de deux modèles différents se chevauchent, cela signifie que leurs scores sont très proches et qu'ils sont statistiquement égaux.
- Référence croisée avec MT-Bench : Certains classements affichent également un score « MT-Bench ». Il s'agit d'un score issu d'un test de référence automatisé plus traditionnel qui teste la capacité d'un modèle à suivre des instructions complexes en plusieurs étapes. C'est un bon moyen de voir si un mannequin parle facilement ou s'il est également doué pour les tâches difficiles.
Points forts et points faibles de la méthode Arena
Le Chatbot Arena est un outil fantastique, mais il est important de comprendre ce qu'il mesure et ce qu'il ne mesure pas.
À quoi ça sert
- Mesurer le « ressenti » : C'est la meilleure mesure des qualités subjectives telles que la serviabilité, le style d'écriture et la personnalité que les repères traditionnels oublient.
- Réduction des biais : le format aveugle empêche les utilisateurs de privilégier un modèle simplement à cause de son célèbre nom.
- Utilisation dans le monde réel : Les instructions proviennent de personnes réelles qui posent des questions sur des sujets réels, et non d'une série fixe de questions académiques.
- Rester à jour : il peut évaluer de nouveaux modèles très rapidement, en suivant le rythme rapide du développement de l'IA.
Limitations importantes
- Ce n'est pas un fact-checker : un score Elo élevé signifie qu'un modèle est préféré par les utilisateurs, et non qu'il est plus précis ou plus véridique.
- Classement généraliste : le classement classe les capacités générales de chat. Un modèle classé plus bas dans l'ensemble peut tout de même être le meilleur dans un créneau spécifique comme le codage, la médecine ou l'analyse juridique.
- Peut favoriser le « bavardage » : Parfois, les utilisateurs préfèrent une réponse plus longue, plus détaillée ou plus « enthousiaste », même si une réponse plus courte est plus correcte. Cela peut biaiser le classement.
Sites Web de Classement que J'utilise
Pour évaluer et comparer les modèles d'IA, voici les sites web clés que je consulte :
- LM Arena Leaderboard: Voyez comment les principaux modèles se comparent en matière de texte, d'image, de vision et au-delà. Cette page vous donne un aperçu de chaque Arena, et vous pouvez explorer des informations plus approfondies dans leurs onglets dédiés.
- Artificial Analysis Leaderboards: Comparaison et classement des performances de plus de 30 modèles d'IA (LLM) selon des métriques clés, notamment la qualité, le prix, les performances et la vitesse (vitesse de sortie - jetons par seconde et latence - TTFT), la fenêtre contextuelle et autres.
Contrôle rapide
Quel est le principe de base du système de classement de la Chatbot Arena ?
Récapitulatif : classement des modèles d'IA
Ce que nous avons abordé :
- Le défi de classer les modèles d'IA et la façon dont le Chatbot Arena fournit une solution unique basée sur les préférences humaines.
- Comment fonctionne l'arène à l'aide d'un système de vote en tête-à-tête à l'aveugle et de la méthode de notation Elo issue des échecs.
- Comment lire le classement en regardant le score Elo et les intervalles de confiance.
- Les points forts de cette méthode (mesurer les sensations du monde réel) et ses limites (il ne s'agit pas d'un fact-checker).
Pourquoi c'est important :
- Le classement de Chatbot Arena est l'un des classements les plus influents du monde de l'IA. Comprendre son fonctionnement vous permet de dépasser le battage publicitaire et de voir quels modèles les gens trouvent vraiment les plus utiles et les plus agréables à utiliser.
Prochaine étape :
- Nous examinerons le monde des grands modèles linguistiques non américains, en explorant les principaux modèles d'IA développés en dehors des États-Unis.