What is the current probability for this event?

As of 2026-07-23, the market-implied probability is 38% YES and 62% NO, based on $4,873 in liquidity.

Where can I trade this market?

This market trades on the Polymarket CLOB on Polygon. Connect a non-custodial wallet (MetaMask, Coinbase Smart Wallet via passkey, or any EIP-1193 wallet) at polymarkettrade.app to place YES or NO orders. Polymarket Trade is an independent third-party interface to the Polymarket CLOB.

PolymarketTradeIndependent interface · non-custodial

AI · LIVE

Hito de Puntuación Arena 1510 | Mercado de Predicciones en Vivo

¿Alcanzará algún modelo de IA una puntuación Arena General de 1510 antes de septiembre de 2026? Los operadores valúan una probabilidad de mercado del 75% para un desempeño revolucionario. Sigue los valores de referencia LMSYS en tiempo real.

38%

PROBABILIDAD · YES

Compra una participación por

YES38¢

NO62¢

Volumen 24h:$169

El valor de referencia LMSYS Arena mide el desempeño de modelos de lenguaje extenso a través de juicios de preferencia humana sobre conversaciones reales de usuarios, creando una clasificación neutral sin sesgos por manipulación de resultados. Una puntuación de 1510 representa un hito de capacidad significativo—los líderes actuales se ubican en el rango de 1480–1500, con cada brecha de 50 puntos reflejando mejoras notables en razonamiento, seguimiento de instrucciones y resolución de problemas en el mundo real. La probabilidad de mercado del 75% sugiere que los operadores creen que al menos un modelo superará este umbral dentro de la ventana de ~4,5 meses, reflejando confianza en la velocidad del desarrollo de IA de frontera y ciclos competitivos de lanzamiento. Alcanzar 1510 requiere más que mejora incremental; típicamente indica avances arquitectónicos, ejecuciones de entrenamiento escaladas o métodos innovadores de post-entrenamiento. Las ganancias incrementales de 30–50 puntos son raras en este nivel de desempeño. Los ciclos recientes muestran lanzamientos de OpenAI, Anthropic, Google y Meta aproximadamente cada 2–3 meses, reduciendo la brecha hacia 1510. La alta convicción del mercado implica que los operadores esperan un lanzamiento de nueva generación importante o una actualización significativa de un modelo existente antes del 30 de septiembre. La brecha de ~30 puntos parece alcanzable dada la velocidad actual, pero no garantizada—haciendo esto una prueba genuina de si los laboratorios de frontera pueden superar el próximo tramo de capacidad.

¿Qué factores podrían mover este mercado?

LMSYS Arena funciona como una plataforma de evaluación de código abierto y financiamiento colectivo desarrollada por investigadores en el LMSYS Org de UC Berkeley. A diferencia de conjuntos de pruebas cerrados propensos a la manipulación de valores de referencia, Arena agrega preferencias humanas genuinas de interacciones reales de usuarios, lo que la convierte en una de las clasificaciones más neutrales y confiables del campo. La Puntuación Arena General funciona como una clasificación de estilo Elo; cada conversación entre un usuario y dos modelos competidores genera datos de preferencia, con modelos ganadores ganando puntos y perdedores declinando. Durante los últimos 12 meses, los modelos de frontera han subido 100–150 puntos, impulsados por lanzamientos importantes (GPT-4, familia Claude 3, variantes Llama) y mejoras de post-entrenamiento. El objetivo de 1510 se sitúa aproximadamente 30 puntos por encima de los líderes actuales—alcanzable dentro de cuatro meses pero requiriendo más que ganancias incrementales. Varios caminos podrían desbloquear este salto. Primero, un laboratorio importante podría lanzar una versión de nueva generación con innovaciones arquitectónicas novedosas: módulos de razonamiento avanzado, ventanas de contexto expandidas o comprensión multimodal mejorada. Segundo, un modelo existente podría someterse a refinamiento significativo de post-entrenamiento mediante ajuste fino supervisado y aprendizaje de refuerzo de retroalimentación humana, como se ve en iteraciones de Claude y GPT-4o. Tercero, si LMSYS expande dominios de evaluación—comprensión de video, interacción en tiempo real, tareas técnicas especializadas—el límite de puntuación podría desplazarse hacia arriba. Por el contrario, existen vientos en contra. La saturación de valores de referencia es real; los modelos que se acercan a la capacidad conversacional a nivel humano pueden mostrar retornos marginales decrecientes, con ganancias adicionales reflejando sobreajuste estrecho en lugar de capacidad amplia. La ventana de cuatro meses es ajustada; el entrenamiento para implementación pública típicamente requiere 4–6 meses. Algunos laboratorios pueden desprioritizar el desempeño de Arena por seguridad, alineación o eficiencia de costos, ralentizando la carrera. La presión regulatoria podría fomentar cronogramas de lanzamiento cautelosos. La convicción del 75% refleja la creencia de los operadores de que un avance decisivo es más probable que un estancamiento, alineándose con la velocidad histórica de IA y la dinámica competitiva entre OpenAI, Anthropic, Google DeepMind y Meta. Sin embargo, la probabilidad restante del 25% reconoce incertidumbre real de cronograma y si la próxima generación superará específicamente 1510.

¿Qué están observando los operadores?

Lanzamiento de modelo importante de OpenAI, Anthropic, Google o Meta; sigue fechas de anuncio y cronogramas de disponibilidad pública.
Actualizaciones de la clasificación LMSYS Arena; observa saltos de puntuación de modelos principales por encima de 1490 y cambios de trayectoria en tiempo real.
Regulaciones de seguridad de IA o restricciones de implementación de laboratorios; pueden retrasar lanzamientos de frontera o cambiar la prioridad desde el desempeño de referencia.
Avances de código abierto o innovaciones de ajuste fino; las mejoras a Llama u otros modelos públicos podrían aumentar las puntuaciones.
Expansión de la evaluación de Arena hacia dominios multimodales o especializados; cambios de metodología podrían desplazar el límite de puntuación.

¿Cómo se resuelve este mercado?

El mercado se resuelve como SÍ si algún modelo de IA logra una Puntuación Arena General de 1510 o superior en la clasificación LMSYS antes del 30 de septiembre de 2026, 11:59 PM UTC. La resolución se basa en los registros oficiales de la clasificación de LMSYS en la fecha de cierre designada.

Hito de Puntuación Arena 1510 | Mercado de Predicciones en Vivo

¿Qué factores podrían mover este mercado?

¿Qué están observando los operadores?

¿Cómo se resuelve este mercado?

Mercados de predicciones relacionados

Ai — un vistazo a la categoría

¿Qué es Polymarket Trade?