Claude Opus 4.8 registra una probabilidad implícita del 7% de debutar por debajo de 1480, con volumen de $110 en 24h. Opere en vivo en Polymarket a través de Polymarket Trade.
Este mercado ha sido archivado. El contenido histórico se conserva a continuación.
Claude Opus 4.8 es el próximo modelo de lenguaje de gran escala insignia de próxima generación de Anthropic, que se espera que debute en el LMSYS Arena Leaderboard en el futuro cercano. El LMSYS Arena es el bien conocido ranking de LLM colaborativo, donde los modelos se clasifican por puntuación Elo basada en votos de preferencia de usuarios en comparaciones directas, sirviendo como un benchmark clave para la comunidad de IA abierta. La mayoría de los operadores en este mercado (93%) confían en que el 4.8 debutará con una puntuación Elo de 1480 o superior, un umbral que lo establecería entre los modelos de mejor desempeño jamás probados en el ranking. Por el contrario, solo el 7% de los operadores estima que tendrá un desempeño inferior a este benchmark en el lanzamiento. Este precio del mercado refleja la amplia confianza en la trayectoria reciente de escalamiento de Anthropic y las mejoras incrementales consistentes observadas en las transiciones de modelo insignia a modelo insignia. Sin embargo, los debuts de modelos en Arena pueden producir sorpresas debido a la varianza en las pruebas, el panorama competitivo dinámico y la naturaleza subjetiva de la votación colaborativa de preferencias.
Anthropic ha construido un sólido historial en el LMSYS Arena Leaderboard. Claude 3 Opus, lanzado en marzo de 2024, debutó con aproximadamente 1332 Elo, y los lanzamientos de modelos sucesivos han mostrado una tendencia al alza conforme las mejoras arquitectónicas, la escala de datos de entrenamiento y la inversión en computación se han expandido. Claude 3.5 Sonnet posicionó la línea Sonnet de la empresa como altamente competitiva, mientras que las variantes Opus han clasificado consistentemente entre los mejores desempeños en los benchmarks abiertos de LLM. El umbral de 1480 representa una barra de desempeño significativa—bien por encima de la mayoría de los modelos cerrados líderes y cerca del apogeo de los resultados recientes del ranking. Varios factores podrían impulsar a Claude 4.8 hacia SÍ (por debajo de 1480). Anthropic podría priorizar perfiles de capacidad diferentes—profundidad de razonamiento sobre generalidad de benchmark, por ejemplo. Las restricciones de longitud de contexto o las limitaciones específicas del hardware durante las pruebas de Arena podrían crear límites artificiales. La votación colaborativa de preferencias puede sorprender: si los usuarios de Arena perciben el 4.8 como verboso, excesivamente cauteloso debido al entrenamiento de seguridad, o desalineado con preferencias por concisión, el modelo podría tener un desempeño inferior a las expectativas puras de capacidad. La inflación de Elo más amplia o los cambios en la votación de Arena también podrían mover los puntos de referencia hacia arriba, haciendo que 1480 sea más difícil de alcanzar. Los factores que apoyan el NO (debut en 1480+) incluyen el impulso de ingeniería demostrado por Anthropic, ganancias claras de capacidad en los lanzamientos recientes, datos de entrenamiento expandidos y computación aumentada. El fuerte desempeño entre modelos de la empresa sugiere un progreso sistemático. El precedente histórico importa: los debuts de Claude 3 Opus, GPT-4 y PaLM generalmente cumplieron o superaron las expectativas conservadoras, a menudo sorprendiendo al alza. La probabilidad del 7% refleja la opinión del mercado de que una regresión significativa por debajo de 1480 es improbable. Los operadores descartan los riesgos de cola a la baja (desajuste arquitectónico, varianza en pruebas) como de baja probabilidad. La liquidez delgada ($1,916) y el volumen modesto ($110/día) sugieren cobertura limitada o falta de convicción fuerte; el precio puede reflejar escepticismo por defecto en lugar de convicción alcista intensa. El mercado delgado deja espacio para operadores con conocimiento específico del producto de Anthropic o perspectivas de votación de Arena para mover la aguja.
El mercado se resuelve como SÍ si Claude Opus 4.8 debuta en el LMSYS Arena Leaderboard con una puntuación Elo estrictamente por debajo de 1480. Si el modelo debuta con 1480 o superior, el mercado se resuelve como NO. La resolución ocurre tras la publicación oficial de la puntuación de debut del 4.8 en el Arena Leaderboard.
Los mercados de predicciones agregan las expectativas de los operadores en estimaciones de probabilidad en tiempo real. En Polymarket Trade, cada pregunta de mercado se resuelve como YES o NO según el resultado específico de un evento; los operadores compran participaciones del lado que creen que se resolverá positivamente. Los precios van desde 0¢ (NO seguro) hasta 100¢ (YES seguro) y reflejan naturalmente la probabilidad implícita por la multitud de que sea YES. Esta página resume el estado del mercado para los lectores que llegan desde búsquedas; para operar en vivo (colocar órdenes, ver la profundidad del libro de órdenes, ejecutar una operación), abre la página interactiva completa enlazada arriba.