What is the current probability for this event?

As of 2026-06-10, the market-implied probability is 12% YES and 88% NO, based on $6,284 in liquidity.

Where can I trade this market?

This market trades on the Polymarket CLOB on Polygon. Connect a non-custodial wallet (MetaMask, Coinbase Smart Wallet via passkey, or any EIP-1193 wallet) at polymarkettrade.app to place YES or NO orders. Polymarket Trade is an independent third-party interface to the Polymarket CLOB.

Último Examen de Claude AI: 5% para alcanzar 55%+ — Mercado en Vivo

Los modelos Claude AI de Anthropic cotizan con apenas una probabilidad implícita del 5% de obtener al menos el 55% en el Último Examen de Humanity, un nuevo y riguroso criterio de evaluación diseñado para evaluar el razonamiento avanzado de IA en dominios complejos. El examen, administrado por investigadores académicos, pone a prueba sistemas de IA de frontera en su capacidad para resolver problemas de múltiples pasos que requieren razonamiento profundo, conocimiento especializado y criterio matizado en campos como la ciencia, la política, la ética y la síntesis entre dominios. Con una fecha de resolución del 30 de junio, los operadores se posicionan decididamente en contra de que Claude supere el umbral del 55%. Las bajas probabilidades de mercado probablemente reflejan escepticismo sobre las capacidades del modelo Claude actual en relación con este criterio de evaluación específico, o consenso de mercado de que el Último Examen de Humanity establece una barra genuinamente alta para el desempeño en comparación con criterios de evaluación de IA convencionales. Los $7,941 en liquidez disponible y $325 en volumen reciente de 24 horas sugieren interés significativo pero medido por parte de los operadores, lo que indica que se trata principalmente de una operación de posicionamiento a largo plazo más que de especulación activa. La estructura del mercado implica que los operadores esperan que el desempeño de Claude permanezca por debajo del 55%, ya sea porque el criterio de evaluación está calibrado para sistemas de próxima generación o porque la arquitectura actual de Claude tiene limitaciones fundamentales en esta clase de tareas de razonamiento complejo.

¿Qué factores podrían mover este mercado?

El Último Examen de Humanity es un criterio de evaluación de IA de frontera diseñado para evaluar el razonamiento, el conocimiento y el criterio en dominios que requieren resolución sostenida de problemas de múltiples pasos, integración de conocimiento especializado y evaluación subjetiva de resultados matizados. A diferencia de criterios de evaluación estandarizados como MMLU o Arc, que prueban el recuerdo de hechos y razonamiento estrecho, el Último Examen de Humanity evalúa sistemas en tareas que históricamente requerían experiencia humana: descubrimiento científico, evaluación de políticas, razonamiento ético y síntesis entre campos. Una puntuación del 55% representa un umbral donde un sistema de IA demuestra un desempeño que se aproxima o supera el razonamiento a nivel de experto humano en estas tareas complejas. La probabilidad implícita del mercado del 5% sugiere que los operadores creen que este umbral está sustancialmente por encima de las capacidades actualmente demostradas de Claude en tales criterios de evaluación, o que la dificultad del criterio de evaluación está calibrada para desafiar sistemas de próxima generación más allá de las arquitecturas actuales de Claude. Varios factores podrían impulsar el mercado hacia SÍ. Anthropic ha demostrado un patrón consistente de mejoras de capacidades con cada lanzamiento de versión de Claude, y la fecha límite del 30 de junio permite posibles nuevos lanzamientos de modelos o versiones actualizadas entre ahora y la resolución. El escalado continuo del tamaño del modelo, la computación de entrenamiento y los marcos de razonamiento podrían producir mejoras graduales en el desempeño en tareas de razonamiento complejo. Además, si el Último Examen de Humanity es un criterio de evaluación recientemente publicado con datos de desempeño previo limitados, los operadores podrían estar descuentando la posibilidad de versiones de Claude específicamente optimizadas o ajustadas para esta clase de tareas antes de la fecha de resolución. Inversamente, varios factores estructurales explican la evaluación pesimista del 5%. Los desarrolladores de criterios de evaluación típicamente calibran la dificultad para evaluar sistemas de frontera, y un umbral del 55% puede representar una dificultad genuina que los modelos Claude actuales aún no han superado. Las limitaciones conocidas de Claude en ciertas tareas de razonamiento, particularmente las que requieren análisis cuantitativo profundo o cadenas lógicas sostenidas a lo largo de muchos pasos, podrían hacer que este objetivo sea difícil. El criterio de evaluación puede incluir dominios—descubrimiento científico, razonamiento novedoso bajo incertidumbre, integración de investigación de vanguardia—donde el corte de datos de entrenamiento de Claude o las limitaciones arquitectónicas crean brechas significativas. Finalmente, si el criterio de evaluación ha sido publicado durante meses sin que sistemas de IA de alto desempeño logren el 55%+, la probabilidad del 5% puede reflejar racionalmente evidencia empírica más que pura especulación. La estructura actual del mercado implica que los operadores asignan una convicción muy alta a un desempeño inferior de Claude. Con probabilidades del 5% para SÍ, la relación riesgo-recompensa está sesgada fuertemente hacia NO, sugiriendo que los operadores tienen alta confianza en las limitaciones de Claude relativas a esta tarea específica, o que el diseño del criterio de evaluación hace que el 55% sea un objetivo sustancialmente difícil. El bajo volumen de 24 horas ($325) a pesar de $7,941 en liquidez indica posicionamiento en lugar de debate activo—los operadores establecieron posiciones largas en NO y están aguantando hasta la fecha límite del 30 de junio. El mercado probablemente se desplazaría materialmente ante noticias de nuevas capacidades de versiones de Claude, filtraciones de dificultad del criterio de evaluación, o resultados de pruebas provisionales que sugieran un desempeño superior.

¿Qué están observando los operadores?

Nuevo lanzamiento de versión del modelo Claude de Anthropic antes del 30 de junio — podría desbloquear un desempeño de razonamiento mejorado
Resultados provisionales del criterio de evaluación o datos de prueba filtrados que revelen el desempeño real de Claude en el Último Examen de Humanity
Anuncios de Anthropic sobre avances en razonamiento, mejoras arquitectónicas o innovaciones en entrenamiento
Confirmación de calibración del criterio de evaluación — si otros sistemas de IA de frontera han logrado públicamente puntuaciones del 55%+

¿Cómo se resuelve este mercado?

El mercado se resuelve como SÍ si un modelo Claude de Anthropic obtiene al menos el 55% en el Último Examen de Humanity antes del 30 de junio de 2026. La resolución se determina por los administradores oficiales del examen o resultados publicados del criterio de evaluación.

Último Examen de Claude AI: 5% para alcanzar 55%+ — Mercado en Vivo

¿Qué factores podrían mover este mercado?

¿Qué están observando los operadores?

¿Cómo se resuelve este mercado?

¿Qué es Polymarket Trade?