¿Alcanzará algún modelo de IA una puntuación Arena General de 1510 antes de septiembre de 2026? Los operadores valúan una probabilidad de mercado del 75% para un desempeño revolucionario. Sigue los valores de referencia LMSYS en tiempo real.
Conecta wallet para operar · ¿Sin wallet? Login con passkey · Alertas gratis en /subscribe
El valor de referencia LMSYS Arena mide el desempeño de modelos de lenguaje extenso a través de juicios de preferencia humana sobre conversaciones reales de usuarios, creando una clasificación neutral sin sesgos por manipulación de resultados. Una puntuación de 1510 representa un hito de capacidad significativo—los líderes actuales se ubican en el rango de 1480–1500, con cada brecha de 50 puntos reflejando mejoras notables en razonamiento, seguimiento de instrucciones y resolución de problemas en el mundo real. La probabilidad de mercado del 75% sugiere que los operadores creen que al menos un modelo superará este umbral dentro de la ventana de ~4,5 meses, reflejando confianza en la velocidad del desarrollo de IA de frontera y ciclos competitivos de lanzamiento. Alcanzar 1510 requiere más que mejora incremental; típicamente indica avances arquitectónicos, ejecuciones de entrenamiento escaladas o métodos innovadores de post-entrenamiento. Las ganancias incrementales de 30–50 puntos son raras en este nivel de desempeño. Los ciclos recientes muestran lanzamientos de OpenAI, Anthropic, Google y Meta aproximadamente cada 2–3 meses, reduciendo la brecha hacia 1510. La alta convicción del mercado implica que los operadores esperan un lanzamiento de nueva generación importante o una actualización significativa de un modelo existente antes del 30 de septiembre. La brecha de ~30 puntos parece alcanzable dada la velocidad actual, pero no garantizada—haciendo esto una prueba genuina de si los laboratorios de frontera pueden superar el próximo tramo de capacidad.
LMSYS Arena funciona como una plataforma de evaluación de código abierto y financiamiento colectivo desarrollada por investigadores en el LMSYS Org de UC Berkeley. A diferencia de conjuntos de pruebas cerrados propensos a la manipulación de valores de referencia, Arena agrega preferencias humanas genuinas de interacciones reales de usuarios, lo que la convierte en una de las clasificaciones más neutrales y confiables del campo. La Puntuación Arena General funciona como una clasificación de estilo Elo; cada conversación entre un usuario y dos modelos competidores genera datos de preferencia, con modelos ganadores ganando puntos y perdedores declinando. Durante los últimos 12 meses, los modelos de frontera han subido 100–150 puntos, impulsados por lanzamientos importantes (GPT-4, familia Claude 3, variantes Llama) y mejoras de post-entrenamiento. El objetivo de 1510 se sitúa aproximadamente 30 puntos por encima de los líderes actuales—alcanzable dentro de cuatro meses pero requiriendo más que ganancias incrementales. Varios caminos podrían desbloquear este salto. Primero, un laboratorio importante podría lanzar una versión de nueva generación con innovaciones arquitectónicas novedosas: módulos de razonamiento avanzado, ventanas de contexto expandidas o comprensión multimodal mejorada. Segundo, un modelo existente podría someterse a refinamiento significativo de post-entrenamiento mediante ajuste fino supervisado y aprendizaje de refuerzo de retroalimentación humana, como se ve en iteraciones de Claude y GPT-4o. Tercero, si LMSYS expande dominios de evaluación—comprensión de video, interacción en tiempo real, tareas técnicas especializadas—el límite de puntuación podría desplazarse hacia arriba. Por el contrario, existen vientos en contra. La saturación de valores de referencia es real; los modelos que se acercan a la capacidad conversacional a nivel humano pueden mostrar retornos marginales decrecientes, con ganancias adicionales reflejando sobreajuste estrecho en lugar de capacidad amplia. La ventana de cuatro meses es ajustada; el entrenamiento para implementación pública típicamente requiere 4–6 meses. Algunos laboratorios pueden desprioritizar el desempeño de Arena por seguridad, alineación o eficiencia de costos, ralentizando la carrera. La presión regulatoria podría fomentar cronogramas de lanzamiento cautelosos. La convicción del 75% refleja la creencia de los operadores de que un avance decisivo es más probable que un estancamiento, alineándose con la velocidad histórica de IA y la dinámica competitiva entre OpenAI, Anthropic, Google DeepMind y Meta. Sin embargo, la probabilidad restante del 25% reconoce incertidumbre real de cronograma y si la próxima generación superará específicamente 1510.
El mercado se resuelve como SÍ si algún modelo de IA logra una Puntuación Arena General de 1510 o superior en la clasificación LMSYS antes del 30 de septiembre de 2026, 11:59 PM UTC. La resolución se basa en los registros oficiales de la clasificación de LMSYS en la fecha de cierre designada.
Los mercados de predicciones agregan las expectativas de los operadores en estimaciones de probabilidad en tiempo real. En Polymarket Trade, cada pregunta de mercado se resuelve como YES o NO según el resultado específico de un evento; los operadores compran participaciones del lado que creen que se resolverá positivamente. Los precios van desde 0¢ (NO seguro) hasta 100¢ (YES seguro) y reflejan naturalmente la probabilidad implícita por la multitud de que sea YES. Esta página resume el estado del mercado para los lectores que llegan desde búsquedas; para operar en vivo (colocar órdenes, ver la profundidad del libro de órdenes, ejecutar una operación), abre la página interactiva completa enlazada arriba.