How does this prediction market resolve?

该市场在 Claude Opus 4.8 在 LMSYS Arena 排行榜上首秀，且 Elo 评分严格低于 1480 时裁定为是。如果模型首秀分数为 1480 或以上，则市场裁定为否。裁定在 Arena 排行榜官方发布 4.8 首秀评分时进行。

Where can I trade this market?

This market trades on the Polymarket CLOB on Polygon. Connect a non-custodial wallet (MetaMask, Coinbase Smart Wallet via passkey, or any EIP-1193 wallet) at polymarkettrade.app to place YES or NO orders. Polymarket Trade is an independent third-party interface to the Polymarket CLOB.

PolymarketTradeIndependent interface · non-custodial

FEATURED

Claude Opus 4.8 首秀：7%市场隐含概率预测初始分数低于1480 — 实时报价

Claude Opus 4.8 目前市场隐含概率为7%，表示其首秀评分低于1480。24小时交易量为$110。在 Polymarket Trade 上实时交易。

该市场已归档。下方保留历史内容。

已结算

该市场已结束 — 请阅读下方的完整分析，然后探索您现在可以交易的实时市场。

浏览实时预测市场 →

Claude Opus 4.8 是 Anthropic 即将发布的下一代旗舰大语言模型，预计将在不久的将来登上 LMSYS Arena 排行榜。LMSYS Arena 是广泛认可的众包 LLM 排行榜，模型根据基于用户偏好投票的 Elo 评分进行排名，是开放人工智能社区的关键基准。该市场中大多数交易者（93%）对 4.8 将以 1480 Elo 评分或更高的分数首秀充满信心，这个阈值将使其跻身排行榜上测试过的性能最高的模型之列。相反，只有 7% 的市场参与者认为其首秀时评分将低于这个基准。该市场定价反映了市场对 Anthropic 近期扩展轨迹的广泛信心，以及在旗舰对旗舰过渡中观察到的持续增量改进。然而，Arena 上的模型首秀可能会因测试方差、动态竞争格局和众包偏好投票的主观性质而产生意外结果。

哪些因素可能影响这个市场？

Anthropic 在 LMSYS Arena 排行榜上拥有良好的历史记录。2024 年 3 月发布的 Claude 3 Opus 首秀评分约为 1332 Elo，随着架构改进、训练数据规模扩大和计算投入增加，后续模型版本呈上升趋势。Claude 3.5 Sonnet 使该公司的 Sonnet 系列成为高度竞争力的产品，而 Opus 变体在开放 LLM 基准测试中始终排名靠前。1480 阈值代表了一个显著的性能标准——远高于大多数领先的闭源模型，接近最近排行榜结果的顶峰。几个因素可能推动 Claude 4.8 走向是（低于 1480）。Anthropic 可能会优先考虑不同的能力侧重——例如推理深度而非基准测试通用性。上下文长度限制或 Arena 测试期间特定硬件的局限可能会造成人为天花板。众包偏好投票可能产生惊人结果：如果 Arena 用户认为 4.8 冗长、由于安全培训过度谨慎，或与简洁偏好不一致，该模型可能表现低于纯能力预期。更广泛的 Elo 膨胀或 Arena 投票转变也可能导致基准上升，使 1480 更难达到。支持否（首秀达 1480+）的因素包括 Anthropic 展现的工程势头、最近版本中清晰的能力增益、扩展的训练数据和增加的计算资源。该公司的强大跨模型性能表明系统性进展。历史先例很重要：Claude 3 Opus、GPT-4 和 PaLM 首秀通常达到或超过保守预期，通常产生正面惊喜。 7% 的概率反映了市场的观点，即意义重大的低于 1480 的回归不太可能发生。交易者将下行尾部风险（架构不匹配、测试方差）视为低概率事件。流动性薄弱（$1,916）和成交量适中（$110/天）表明套期保值或信念交易有限；定价可能反映默认怀疑态度而非强烈看涨信心。薄弱的市场为拥有特定 Anthropic 产品知识或 Arena 投票见解的交易者提供了改变局面的空间。

Claude Opus 4.8 首秀：7%市场隐含概率预测初始分数低于1480 — 实时报价

哪些因素可能影响这个市场？

交易者在关注什么？

市场如何裁定？

相关预测市场

Ai 类别 — 概览

什么是 Polymarket Trade？