lu1tr0n

Posted on May 14 • Originally published at elsolitario.org

Arena ELO History: el gráfico que expone cómo se degradan los LLM

#ai #machinelearning #programming #tutorial

Un investigador independiente acaba de publicar una herramienta que expone uno de los patrones peor documentados de la industria de la inteligencia artificial: los modelos de lenguaje grandes se degradan después de su lanzamiento. Arena AI Model ELO History, publicado por Erwin Mayer en su sitio personal, traza la evolución diaria del rating ELO de cada modelo flagship en LM Arena desde 2023 hasta hoy.

La premisa es simple: cuando Anthropic, OpenAI, Google o xAI lanzan un modelo, los benchmarks iniciales suelen ser impresionantes. Lo que esta visualización revela es que esos mismos modelos, semanas o meses después, suelen perder puntos en evaluaciones ciegas hechas por humanos reales. El gráfico no opina; solo muestra los datos.

TL;DR

Erwin Mayer publicó Arena AI Model ELO History, un dashboard que grafica el rating ELO diario de cada laboratorio en LM Arena desde 2023.- Los datos se actualizan automáticamente desde el dataset oficial del LM Arena Leaderboard en Hugging Face.- Cada laboratorio tiene una sola curva que sigue al modelo flagship con mayor ELO en cada momento, no al más reciente.- El proyecto deja visible la degradación gradual de modelos tras su lanzamiento, atribuible a cuantización agresiva o filtros adicionales.- LM Arena evalúa el modelo crudo vía API; las interfaces web añaden prompts de sistema y filtros que el benchmark no captura.- Las variantes de inferencia (-thinking, -reasoning, -high) se colapsan en una sola curva por modelo para evitar saltos artificiales.- El código está en GitHub bajo licencia MIT y acepta PRs para fuentes de datos que reflejen evaluaciones de las interfaces web reales.

¿Qué es Arena ELO History?

Arena AI Model ELO History es un dashboard estático publicado en GitHub Pages bajo el dominio personal de Erwin Mayer. La página presenta una visualización interactiva donde cada curva corresponde a un laboratorio de IA: Anthropic, OpenAI, Google DeepMind, xAI, Meta, Mistral, Alibaba, DeepSeek y otros. El eje horizontal es el tiempo, desde enero de 2023 al presente, y el eje vertical es el rating ELO del modelo flagship con mejor desempeño de cada laboratorio en ese momento exacto.

El proyecto se mantiene en sincronía automática con la fuente más confiable de evaluación de LLMs disponible públicamente: el dataset oficial de LM Arena Leaderboard alojado en Hugging Face. Cada día, un job automatizado descarga el snapshot más reciente, lo procesa y actualiza el gráfico. No hay opinión humana en el medio del pipeline; solo datos crowdsourced y un rating ELO calculado matemáticamente.

El código fuente está disponible bajo licencia MIT en el repositorio personal de Mayer, y la página acepta contribuciones de la comunidad para integrar fuentes de datos adicionales que capturen, por ejemplo, evaluaciones de las interfaces web (chat) en lugar de solo la API cruda. Esa distinción, como veremos más adelante, resulta crítica para entender el fenómeno completo.
El dashboard muestra una curva por laboratorio en lugar de una por modelo.

Cómo funciona LM Arena y de dónde salen los números

LM Arena, anteriormente conocido como LMSYS Chatbot Arena, es el benchmark más robusto de capacidad real de modelos de lenguaje, precisamente porque no depende de un test estandarizado que los laboratorios puedan optimizar. En su lugar, miles de usuarios anónimos hacen preguntas a dos modelos simultáneamente, sin saber cuáles son, y votan por la mejor respuesta. Esos votos alimentan un sistema de rating ELO idéntico al usado en ajedrez competitivo desde hace décadas.

El flujo de datos hasta llegar a Arena ELO History es el siguiente:

flowchart LR
A["Usuario en lmarena.ai"] --> B["Vota: modelo A vs modelo B"]
B --> C["Sistema ELO procesa el voto"]
C --> D["Leaderboard oficial"]
D --> E["Dataset publicado en Hugging Face"]
E --> F["Arena ELO History (fetch diario)"]
F --> G["Gráfico interactivo"]

Cada voto recalibra el ELO de los dos modelos enfrentados. Los detalles del cálculo, como el factor K, el decay temporal y los ajustes por idioma, están documentados en los papers que publica el equipo de LM Arena. Lo importante para nuestro contexto es que el ELO refleja la preferencia real de usuarios, no scores en benchmarks que el modelo pudo haber visto durante el entrenamiento. Esto es radicalmente distinto a MMLU, HumanEval o cualquier otro benchmark donde el laboratorio sabe exactamente qué se va a evaluar y puede entrenar para optimizarlo.

Una curva por laboratorio: la lógica del flagship

Una decisión interesante de diseño en la herramienta es que cada laboratorio aparece con una sola curva, no una por modelo. La curva rastrea, en cada punto temporal, el modelo flagship con el ELO más alto de ese laboratorio. Esto suena obvio, pero tiene matices importantes que vale la pena desarrollar.

Cuando Anthropic lanza Sonnet 4.6, por ejemplo, ese modelo no necesariamente desplaza a Opus 4.5 de la curva. Si Opus sigue siendo el modelo con mejor ELO de Anthropic, la curva de Anthropic continúa siguiendo a Opus hasta que Sonnet 4.6 lo supere, si es que lo supera. Esto evita que la curva oscile artificialmente cuando un laboratorio lanza modelos de gama media mientras su modelo top sigue vigente en producción.

Otra decisión clave: las variantes de modo de inferencia, con sufijos como -thinking, -reasoning, o -high, se consideran el mismo modelo subyacente operando en distintos modos, no modelos diferentes. Si Claude Opus 4.7-thinking y Claude Opus 4.7 son la misma red neuronal con distinto presupuesto de tokens de razonamiento, ambos colapsan en una sola entrada. Esto previene que la curva salte de forma engañosa entre variantes que en realidad son los mismos pesos entrenados.

El nerf silencioso: cuantización y filtros

El término nerf viene de los videojuegos: cuando los desarrolladores debilitan deliberadamente un personaje o arma sin anunciarlo de forma prominente. En el contexto de los LLMs, el término describe degradaciones que los usuarios perciben pero que las empresas raramente reconocen públicamente. El gráfico de Mayer hace estas degradaciones cuantitativamente visibles por primera vez para el público general.

Hay varias hipótesis sobre por qué ocurre la degradación post-lanzamiento, y todas tienen evidencia parcial:

Cuantización agresiva: lanzar un modelo en precisión completa, FP16 o BF16, y luego, durante picos de demanda, servir versiones cuantizadas a 8 bits o 4 bits para ahorrar memoria GPU y ancho de banda. La pérdida de precisión rara vez se anuncia en los release notes.- Capas adicionales de censura o safety: introducir post-filters o system prompts más restrictivos que reducen el espacio de respuestas válidas. El modelo puede menos cosas, aunque sus pesos no hayan cambiado.- Cambios en la ventana de contexto efectiva: aunque el modelo soporte 200k tokens, las APIs pueden truncar o resumir contexto agresivamente bajo carga.- Drift natural en los votos de Arena: a medida que los usuarios se acostumbran al modelo, suben sus expectativas y bajan los votos relativos. Este efecto es genuino pero no explica caídas abruptas.

💭 Clave: ningún proveedor publica un changelog de cuándo cambia el nivel de cuantización en producción. La única señal externa es la degradación que detectan benchmarks ciegos como LM Arena.
La cuantización en producción suele explicar pérdidas silenciosas de calidad.

API vs chat web: dos modelos que parecen iguales

Una limitación crítica que Mayer destaca explícitamente en la metodología: LM Arena evalúa los modelos a través de las APIs oficiales, es decir, el modelo crudo. Las interfaces de chat para consumidores, como claude.ai, chatgpt.com o gemini.google.com, no son el mismo modelo que evalúa Arena.

Las interfaces web típicamente añaden:

Un system prompt corporativo que define personalidad, tono y restricciones.- Capas de filtrado adicionales que pueden rechazar prompts que la API aceptaría sin problema.- Wrappers de UI que recortan o reformatean respuestas.- Bajo picos de carga, posiblemente versiones cuantizadas más agresivas, aunque ningún proveedor lo confirma oficialmente.

Esto significa que cuando un usuario percibe que ChatGPT está más tonto que la semana pasada, podría estar viendo una de tres cosas: una degradación real del modelo subyacente, que aparecería en LM Arena; cambios en el wrapping de la UI que no afectan al modelo crudo; o simple variabilidad estadística natural en las respuestas. El gráfico de Mayer solo puede detectar la primera de las tres. Por eso el repositorio acepta PRs para integrar fuentes de datos alternativas que evalúen las interfaces web tal como las experimenta un usuario final, no la API cruda.

Cómo consultar los datos desde tu propio código

Si querés correr tus propios análisis sobre el dataset de LM Arena, podés descargarlo directamente desde Hugging Face. El siguiente ejemplo funciona en Windows, macOS y Linux con Python 3.10 o superior:

# Windows / macOS / Linux
pip install datasets pandas matplotlib

from datasets import load_dataset
import pandas as pd

# El dataset oficial del leaderboard de LM Arena
ds = load_dataset("lmarena-ai/chatbot-arena-leaderboard", split="train")
df = ds.to_pandas()

# Mostrar los 10 modelos con mayor ELO actual
top = df.sort_values("rating", ascending=False).head(10)
print(top[["model", "rating", "votes", "license"]])

# Filtrar solo modelos de un laboratorio especifico
anthropic = df[df["model"].str.contains("claude", case=False, na=False)]
print(anthropic[["model", "rating"]].head(20))

Para developers en LATAM, donde el ancho de banda y los presupuestos GPU no siempre alcanzan para entrenar modelos propios, este tipo de dataset es oro: te permite evaluar qué modelo conviene integrar en tu aplicación basándote en datos crowdsourced reales en lugar de marketing del proveedor de turno.

💡 Tip: si vas a tomar decisiones de arquitectura basadas en estos ratings, calculá vos mismo la diferencia ELO entre dos modelos. Una diferencia menor a 20 puntos suele ser estadísticamente irrelevante para el usuario final.

Limitaciones y críticas a la metodología

Como cualquier benchmark, LM Arena tiene puntos débiles que la comunidad ha discutido extensamente en foros como Hacker News y Reddit:

Sesgo de evaluadores: los usuarios que votan no son una muestra representativa de la población mundial. Sobre-representan a hablantes de inglés, técnicos y curiosos de IA con tiempo libre.- Sesgo de tareas: las preguntas que la gente hace en Arena no reflejan la distribución de tareas del mundo real. Las preguntas creativas y de razonamiento están sobre-representadas frente a tareas mundanas como reformatear un CSV o redactar un correo.- Manipulación posible: técnicamente, un laboratorio podría inflar el ELO de su modelo entrenándolo para estilos de respuesta que los humanos prefieren, como más formato, más bullets, más detalle, sin que eso refleje una mejora real de capacidad.- Latencia entre votos: el ELO se actualiza con cierto retraso. Cambios reales en un modelo pueden tardar días o semanas en reflejarse en la curva.

A pesar de todo, sigue siendo el termómetro más independiente disponible. Comparado con benchmarks como MMLU o HumanEval, que los laboratorios pueden optimizar deliberadamente al conocer su contenido exacto, Arena tiene la ventaja de medir preferencia subjetiva sobre respuestas que no estaban en el set de entrenamiento.

Qué viene después

Mayer anunció en el README del proyecto que el siguiente paso es integrar fuentes de datos que evalúen específicamente las interfaces web, no solo las APIs. La idea es tener dos curvas paralelas por laboratorio: una para el modelo crudo, vía API, y otra para el modelo tal como lo experimenta el usuario final en el chat. Esto permitiría diferenciar empíricamente entre degradación del modelo y cambios en el wrapping de la interfaz, algo que hoy es imposible de saber con certeza.

Para developers en LATAM la conclusión práctica es clara: si tu aplicación depende de un LLM externo, no asumas que el modelo de hoy es el mismo que el de hace tres meses. Construí benchmarks propios pequeños y específicos a tu dominio, ejecutalos periódicamente contra el modelo en producción y guardá los resultados con timestamp. La caja negra que es un LLM moderno solo se puede auditar empíricamente, voto por voto y respuesta por respuesta.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿Qué es el rating ELO en LM Arena?

Es un sistema de puntuación adaptado del ajedrez. Cada modelo empieza con un ELO base y gana o pierde puntos según el resultado de sus enfrentamientos contra otros modelos en evaluaciones ciegas hechas por humanos. Cuantos más votos acumula, más estable se vuelve su rating.

¿Por qué los laboratorios cuantizan modelos sin avisar?

Servir un modelo en FP16 cuesta el doble de memoria GPU que servirlo en INT8 y aproximadamente cuatro veces más que INT4. Durante picos de demanda, cuantizar es la forma más rápida de aumentar capacidad sin desplegar más GPUs físicas. El incentivo económico es directo y poco transparente.

¿LM Arena evalúa Claude, GPT y Gemini reales o versiones de prueba?

LM Arena evalúa los modelos accesibles vía la API pública oficial de cada proveedor. Eso significa que los resultados reflejan lo que cualquier developer obtendría al llamar la API, no necesariamente lo que un usuario obtiene en la interfaz de chat oficial, que añade capas de UI propias.

¿Cómo distingue Arena ELO History entre Opus y Sonnet?

Cada laboratorio tiene una sola curva que rastrea su modelo flagship de mayor ELO en cada momento. Si Opus 4.7 tiene más ELO que Sonnet 4.6, la curva de Anthropic sigue a Opus aunque Sonnet sea el modelo más reciente del catálogo.

¿Puedo contribuir al proyecto?

Sí. El código está en GitHub bajo licencia MIT. El proyecto acepta especialmente PRs que integren fuentes de datos de evaluaciones sobre las interfaces web de los chatbots, no solo APIs, ya que ese es el principal punto ciego de la metodología actual.

¿La degradación post-lanzamiento es comprobada o solo percibida?

Ambas cosas, según el caso. Algunas degradaciones se ven claramente en la curva ELO de LM Arena, lo que las hace cuantitativamente verificables. Otras son reportadas por usuarios pero no aparecen en los benchmarks, sugiriendo que ocurren en la capa de UI más que en el modelo subyacente.

Referencias

Arena AI Model ELO History — el sitio original de Erwin Mayer con el gráfico interactivo y enlace al código fuente.- LM Arena — la plataforma de evaluación ciega crowdsourced que provee los datos base del rating ELO.- Chatbot Arena Leaderboard en Hugging Face — el dataset oficial actualizado diariamente con los ratings ELO de todos los modelos evaluados.

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

DEV Community