一、GPT-5.5 vs Claude Opus 4.7 推理测试双双”翻车”
ARC Prize Foundation 对 OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 在 ARC-AGI-3 基准上进行了 160 场游戏测试,结果令人意外——两款顶尖模型得分均低于 1%,暴露出现有大模型在高阶推理任务上的系统性瓶颈。
研究人员发现了三种系统性推理错误模式,包括任务分解失败、长程规划缺陷和反事实推理缺失。这意味着,即便参数规模已突破万亿级,”通用人工智能”在真正的抽象推理层面仍道阻且长。该测试结果对当前”规模法则已触天花板”的讨论再度添了一把火。
二、xAI 发布 Grok 4.3 与 Custom Voices 语音克隆
xAI 本周密集发力。Grok 4.3 正式登陆 Arena 竞技场,主打高性价比定位,在保持较强推理能力的同时将 API 价格控制在竞品的 60% 以下,被开发者社区称为”最具性价比的旗舰模型”。
与此同时,xAI 发布 Custom Voices 自定义语音克隆功能:开发者只需提供约 1 分钟语音样本即可完成声音克隆,随即用于 Grok 语音 API 应用开发。该功能基于 Grok STT(语音转文字)和 TTS(文字转语音)API 构建,xAI 在语音 AI 领域的布局明显加速。
三、企业 AI 成本危机:Uber 四个月烧完全年预算
企业 AI 规模化落地的光鲜背后,冰山已经浮现。据内部文件披露,Uber 的 AI 编码项目在短短 4 个月内便耗尽了全年预算,AI 编程成本远超管理层预期。消息一出,业界哗然。
这并非孤例。AI 初创公司普遍面临推理成本高企、Token 消耗失控的困境。如何优化 Token 用量、按需加载 MCP 服务器,已成为 AI 工程团队的核心议题。Reddit 上关于”MCP 路由层优化”的帖子持续走红,Token 预算管理正从选修课变成必修课。
四、OpenAI CFO 建议 IPO 推迟至 2027 年
《华尔街日报》披露,OpenAI CFO Sarah Friar 私下建议将 IPO 时间推迟至 2027 年,核心考量是公司当前治理结构尚不稳定、AGI 安全争议尚未解决、竞争格局仍在剧烈变动中。同时,Friar 在维系 OpenAI 与微软的战略合作中发挥了关键作用——微软 CEO 纳德拉近期表示,与 OpenAI 的修订协议是”双赢”,OpenAI 保留了微软的 IP 访问权且无需支付费用。
IPO 推迟的同时,Anthropic 的融资仍在高速推进,估值已突破 3800 亿美元,年化收入据称突破 300 亿美元,两家公司的 IPO 竞速赛正在升温。
五、马斯克 vs OpenAI 庭审第一周:自曝曾用 OpenAI 模型训练 xAI
马斯克诉 OpenAI 案正式开庭,马斯克本人在证人席上的证词引发轩然大波。他自称”傻瓜”(fool),承认当年向 OpenAI 捐赠的 3800 万美元如今换来的是一家估值 8000 亿美元的巨头——而他本人早已出局。
更劲爆的是,马斯克当庭承认,xAI 早期曾使用 OpenAI 模型进行训练。他同时警告 AI 可能带来”终结者”式未来,并对 Altman 将公司从非营利转向商业化的决定表达了强烈不满。案件预计持续数周,其结果可能重塑 AI 行业的监管走向。
六、Anthropic 洽谈自研推理芯片,谷歌 400 亿美元投资落地
Anthropic 的芯片野心浮出水面——据 Techmeme 报道,Anthropic 正与英国芯片初创公司 Fractile 进行早期谈判,计划在 2027 年 Fractile 芯片量产后采购其 AI 推理芯片。此举旨在缓解算力压力,Anthropic 销售额的爆炸式增长已让现有服务器资源承压。
与此同时,谷歌母公司 Alphabet 已正式官宣,向 Anthropic 注入最高 400 亿美元(含现金和算力),首期 100 亿美元已到账。值得注意的是,这笔资金将部分回流用于购买 Google Cloud 算力,形成”投资—采购”的闭环生态。
七、A 股算力芯片爆发:寒武纪涨停,科创50涨超 5%
4月30日 A 股收盘,算力芯片产业链全线爆发。寒武纪 20cm 涨停,时隔 8 个月再创历史新高;芯原股份、灿芯股份、芯源微等多股同步跟涨。科创50指数单日大涨 5.19%,成为当日最强势宽基指数。
驱动因素包括:2025 年报与 2026 一季报密集披露,AI 算力板块业绩兑现超预期;寒武纪一季度归母净利润 10.13 亿元,同比增长 185%;工业富联单季净利润同比翻倍。与此同时,券商研报指出 AI 推理需求正驱动 CPU 重回算力 C 位,全球 CPU 市场陷入缺货涨价态势。
八、开源生态:Qwen3.6-27B 本地跑通 95.7% SimpleQA 得分
开源 AI 领域传来好消息。Qwen 与 Fireworks AI 达成战略合作,提供生产级模型部署服务。同时,开发者社区成功在本地跑通 Qwen3.6-27B,SimpleQA 得分达 95.7%,展现了小型开源模型逼近顶级闭源模型的可能性。
更令人振奋的是,递归推理研究传来突破——一个仅 700 万参数的递归推理模型,在 ARC 任务上表现超越参数规模是其千倍的顶级大模型,Token 用量减少 75%。这为”小模型+推理链”的端侧部署路径提供了新的想象空间。
Views: 3
