Claude Opus 4.8 目前市场隐含概率为7%,表示其首秀评分低于1480。24小时交易量为$110。在 Polymarket Trade 上实时交易。
该市场已归档。下方保留历史内容。
Claude Opus 4.8 是 Anthropic 即将发布的下一代旗舰大语言模型,预计将在不久的将来登上 LMSYS Arena 排行榜。LMSYS Arena 是广泛认可的众包 LLM 排行榜,模型根据基于用户偏好投票的 Elo 评分进行排名,是开放人工智能社区的关键基准。该市场中大多数交易者(93%)对 4.8 将以 1480 Elo 评分或更高的分数首秀充满信心,这个阈值将使其跻身排行榜上测试过的性能最高的模型之列。相反,只有 7% 的市场参与者认为其首秀时评分将低于这个基准。该市场定价反映了市场对 Anthropic 近期扩展轨迹的广泛信心,以及在旗舰对旗舰过渡中观察到的持续增量改进。然而,Arena 上的模型首秀可能会因测试方差、动态竞争格局和众包偏好投票的主观性质而产生意外结果。
Anthropic 在 LMSYS Arena 排行榜上拥有良好的历史记录。2024 年 3 月发布的 Claude 3 Opus 首秀评分约为 1332 Elo,随着架构改进、训练数据规模扩大和计算投入增加,后续模型版本呈上升趋势。Claude 3.5 Sonnet 使该公司的 Sonnet 系列成为高度竞争力的产品,而 Opus 变体在开放 LLM 基准测试中始终排名靠前。1480 阈值代表了一个显著的性能标准——远高于大多数领先的闭源模型,接近最近排行榜结果的顶峰。 几个因素可能推动 Claude 4.8 走向是(低于 1480)。Anthropic 可能会优先考虑不同的能力侧重——例如推理深度而非基准测试通用性。上下文长度限制或 Arena 测试期间特定硬件的局限可能会造成人为天花板。众包偏好投票可能产生惊人结果:如果 Arena 用户认为 4.8 冗长、由于安全培训过度谨慎,或与简洁偏好不一致,该模型可能表现低于纯能力预期。更广泛的 Elo 膨胀或 Arena 投票转变也可能导致基准上升,使 1480 更难达到。 支持否(首秀达 1480+)的因素包括 Anthropic 展现的工程势头、最近版本中清晰的能力增益、扩展的训练数据和增加的计算资源。该公司的强大跨模型性能表明系统性进展。历史先例很重要:Claude 3 Opus、GPT-4 和 PaLM 首秀通常达到或超过保守预期,通常产生正面惊喜。 7% 的概率反映了市场的观点,即意义重大的低于 1480 的回归不太可能发生。交易者将下行尾部风险(架构不匹配、测试方差)视为低概率事件。流动性薄弱($1,916)和成交量适中($110/天)表明套期保值或信念交易有限;定价可能反映默认怀疑态度而非强烈看涨信心。薄弱的市场为拥有特定 Anthropic 产品知识或 Arena 投票见解的交易者提供了改变局面的空间。
该市场在 Claude Opus 4.8 在 LMSYS Arena 排行榜上首秀,且 Elo 评分严格低于 1480 时裁定为是。如果模型首秀分数为 1480 或以上,则市场裁定为否。裁定在 Arena 排行榜官方发布 4.8 首秀评分时进行。
预测市场将交易者的预期聚合为实时概率估计。在 Polymarket Trade 上,每个市场问题根据特定事件结果裁定为 YES 或 NO;交易者购买他们认为会以正面结果裁定的一方的份额。价格范围从 0¢(确定 NO)到 100¢(确定 YES),自然反映人群隐含的 YES 概率。本页面为来自搜索引擎的读者总结市场状态;如需实时交易(下单、查看订单簿深度、执行交易),请打开上方链接的完整交互页面。