Claude AI en el Último Examen de Humanity: 5% para alcanzar 55%+. El mercado cierra el 30 de junio con $325 de volumen diario. Opere en vivo en Polymarket a través de Polymarket Trade.
Conecta wallet para operar · ¿Sin wallet? Login con passkey · Alertas gratis en /subscribe
Los modelos Claude AI de Anthropic cotizan con apenas una probabilidad implícita del 5% de obtener al menos el 55% en el Último Examen de Humanity, un nuevo y riguroso criterio de evaluación diseñado para evaluar el razonamiento avanzado de IA en dominios complejos. El examen, administrado por investigadores académicos, pone a prueba sistemas de IA de frontera en su capacidad para resolver problemas de múltiples pasos que requieren razonamiento profundo, conocimiento especializado y criterio matizado en campos como la ciencia, la política, la ética y la síntesis entre dominios. Con una fecha de resolución del 30 de junio, los operadores se posicionan decididamente en contra de que Claude supere el umbral del 55%. Las bajas probabilidades de mercado probablemente reflejan escepticismo sobre las capacidades del modelo Claude actual en relación con este criterio de evaluación específico, o consenso de mercado de que el Último Examen de Humanity establece una barra genuinamente alta para el desempeño en comparación con criterios de evaluación de IA convencionales. Los $7,941 en liquidez disponible y $325 en volumen reciente de 24 horas sugieren interés significativo pero medido por parte de los operadores, lo que indica que se trata principalmente de una operación de posicionamiento a largo plazo más que de especulación activa. La estructura del mercado implica que los operadores esperan que el desempeño de Claude permanezca por debajo del 55%, ya sea porque el criterio de evaluación está calibrado para sistemas de próxima generación o porque la arquitectura actual de Claude tiene limitaciones fundamentales en esta clase de tareas de razonamiento complejo.
El Último Examen de Humanity es un criterio de evaluación de IA de frontera diseñado para evaluar el razonamiento, el conocimiento y el criterio en dominios que requieren resolución sostenida de problemas de múltiples pasos, integración de conocimiento especializado y evaluación subjetiva de resultados matizados. A diferencia de criterios de evaluación estandarizados como MMLU o Arc, que prueban el recuerdo de hechos y razonamiento estrecho, el Último Examen de Humanity evalúa sistemas en tareas que históricamente requerían experiencia humana: descubrimiento científico, evaluación de políticas, razonamiento ético y síntesis entre campos. Una puntuación del 55% representa un umbral donde un sistema de IA demuestra un desempeño que se aproxima o supera el razonamiento a nivel de experto humano en estas tareas complejas. La probabilidad implícita del mercado del 5% sugiere que los operadores creen que este umbral está sustancialmente por encima de las capacidades actualmente demostradas de Claude en tales criterios de evaluación, o que la dificultad del criterio de evaluación está calibrada para desafiar sistemas de próxima generación más allá de las arquitecturas actuales de Claude. Varios factores podrían impulsar el mercado hacia SÍ. Anthropic ha demostrado un patrón consistente de mejoras de capacidades con cada lanzamiento de versión de Claude, y la fecha límite del 30 de junio permite posibles nuevos lanzamientos de modelos o versiones actualizadas entre ahora y la resolución. El escalado continuo del tamaño del modelo, la computación de entrenamiento y los marcos de razonamiento podrían producir mejoras graduales en el desempeño en tareas de razonamiento complejo. Además, si el Último Examen de Humanity es un criterio de evaluación recientemente publicado con datos de desempeño previo limitados, los operadores podrían estar descuentando la posibilidad de versiones de Claude específicamente optimizadas o ajustadas para esta clase de tareas antes de la fecha de resolución. Inversamente, varios factores estructurales explican la evaluación pesimista del 5%. Los desarrolladores de criterios de evaluación típicamente calibran la dificultad para evaluar sistemas de frontera, y un umbral del 55% puede representar una dificultad genuina que los modelos Claude actuales aún no han superado. Las limitaciones conocidas de Claude en ciertas tareas de razonamiento, particularmente las que requieren análisis cuantitativo profundo o cadenas lógicas sostenidas a lo largo de muchos pasos, podrían hacer que este objetivo sea difícil. El criterio de evaluación puede incluir dominios—descubrimiento científico, razonamiento novedoso bajo incertidumbre, integración de investigación de vanguardia—donde el corte de datos de entrenamiento de Claude o las limitaciones arquitectónicas crean brechas significativas. Finalmente, si el criterio de evaluación ha sido publicado durante meses sin que sistemas de IA de alto desempeño logren el 55%+, la probabilidad del 5% puede reflejar racionalmente evidencia empírica más que pura especulación. La estructura actual del mercado implica que los operadores asignan una convicción muy alta a un desempeño inferior de Claude. Con probabilidades del 5% para SÍ, la relación riesgo-recompensa está sesgada fuertemente hacia NO, sugiriendo que los operadores tienen alta confianza en las limitaciones de Claude relativas a esta tarea específica, o que el diseño del criterio de evaluación hace que el 55% sea un objetivo sustancialmente difícil. El bajo volumen de 24 horas ($325) a pesar de $7,941 en liquidez indica posicionamiento en lugar de debate activo—los operadores establecieron posiciones largas en NO y están aguantando hasta la fecha límite del 30 de junio. El mercado probablemente se desplazaría materialmente ante noticias de nuevas capacidades de versiones de Claude, filtraciones de dificultad del criterio de evaluación, o resultados de pruebas provisionales que sugieran un desempeño superior.
El mercado se resuelve como SÍ si un modelo Claude de Anthropic obtiene al menos el 55% en el Último Examen de Humanity antes del 30 de junio de 2026. La resolución se determina por los administradores oficiales del examen o resultados publicados del criterio de evaluación.
Los mercados de predicciones agregan las expectativas de los operadores en estimaciones de probabilidad en tiempo real. En Polymarket Trade, cada pregunta de mercado se resuelve como YES o NO según el resultado específico de un evento; los operadores compran participaciones del lado que creen que se resolverá positivamente. Los precios van desde 0¢ (NO seguro) hasta 100¢ (YES seguro) y reflejan naturalmente la probabilidad implícita por la multitud de que sea YES. Esta página resume el estado del mercado para los lectores que llegan desde búsquedas; para operar en vivo (colocar órdenes, ver la profundidad del libro de órdenes, ejecutar una operación), abre la página interactiva completa enlazada arriba.