金沙电玩城姚顺宇谷歌首秀，Gemini新模子刷爆SOTA：东说念主类仅剩7东说念主捍卫碳基编程

发布日期：2026-02-14 12:58 点击次数：65

濒临 Claude Opus 4.6 和 GPT Codex 5.3 的是非攻势，谷歌反手即是一个Gemini 3 Deep Think的重要升级。

在 Codeforces（一个包含多样竞技编程挑战的基准测试平台）上，它获取了惊东说念主的3455 Elo 分数，额外于宇宙第 8 名。

这下子，公共唯一 7 东说念主的编程水平能排在它前边了。而此前最高分是一年前 o3 拿下的 2727 Elo。

Gemini 3 Deep Think 的实力不啻于此，它还平直把ARC-AGI-2——这个公认测试 AI 推理才能的前沿基准，给刷到了史无先例的84.6%。

要知说念，之前最强模子的得分在 60%-70% 之间耽搁，Claude Opus 4.6 的收获也唯一 68.8%。

在东说念主类终末执行（HLE）上，Gemini 3 Deep Think 也刷新 SOTA，拿下了48.4%的收获。

官方暗示，新版 Deep Think 是谷歌挑升开采的推理花式，旨在鼓吹智能前沿发展，并处治科学、扣问和工程边界的当代挑战。

另一位"尧舜禹"——清华物理系神话特奖得主姚顺宇（Shunyu Yao），客岁 9 月加入谷歌 DeepMind，亦然这次 Deep Think 新模子的参与者。

新版 DeepThink 仍是走进了实验室

升级后的 Gemini 3 Deep Think 实力究竟有多强？

它的贪心不啻于赢得基准测试，而是要走进科研和工程边界，匡助工程师处理复杂任务。

新版 Deep Think 不错分析草图，对复杂形势进行建模，并平直生成用于 3D 打印的实体文献。这是它打印的一个条记本电脑支架：

谷歌 VP Josh Woodward 在 X 上晒出了打印的后果，看起来对草图额外复原：

罗格斯大学的数学家 Lisa Carbone，运用 Gemini 3 Deep Think 审阅了一篇高度专科的数学论文。

为止 Gemini 3 Deep Think 奏效地识别出了一个轻飘的逻辑劣势，而这个劣势在此前的东说念主工同业评审中均未被发现。

杜克大学的王安实验室，运用 Gemini 3 Deep Think 本领优化了复杂晶体孕育的制备措施，以期发现新的半导体材料。

为止 Gemini 3 Deep Think 奏效联想了一种大致孕育厚度大于 100 微米薄膜的工艺，达到了以往措施难以企及的精准主张。

在 X 上，DeepSeek 多模态团队扣问员 XiaoKang Chen 也暗示：Gemini 3 Deep Think 至极擅所长理科学边界中的长尾任务。

他给 Deep Think 输入了一张复杂分子结构的图片，随后模子便准确地打算出了分子式。

勇夺三项新 SOTA，推理资本裁汰 82%

客岁 Deep Think 挑升版仍是 IMO 等海外竞赛中夺下金牌。目下，全新升级后的 Deep Think 又在多项高难度的基准测试中全面刷新 SOTA：

不使用任何器用，在 HLE 中获取新 SOTA ——48.4%；

在 ARC-AGI-2 测试中获取前所未有的84.6%的收获，并经 ARC Prize 基金会考据；

在 Codeforces 上获取了惊东说念主的3455 Elo 分数；

在 2025 年海外数学奥林匹克竞赛中达到金牌水平。

其中，ARC-AGI-2 被誉为 AI 界的"图灵测试"，旨在估量模子处理从未见过的新颖推理任务的才能。

要知说念，客岁 12 月刚发布的初代 Deep Think 得分照旧 45.1%，不到三个月时间仍是飙升到 84.6%，比 Opus 4.6 还要强出一截。

而在 ARC-AGI-1 上，Gemini 3 Deep Think 获取了 96% 的收获，平直顶到天花板了。

性能普及的同期，推理资本也在大幅着落。初代 Deep Think 实行每项任务的资本为 77.16 好意思元。这次升级让资本裁汰了 82%，金沙电玩城app下载每项任务仅需13.62 好意思元。

由于 1 和 2 都被 Gemini 刷爆了，目下 ARC Prize 仍是在构建 ARC-AGI-3 了……

除了数学和编程，升级后的 Deep Think 在化学和物理等泛泛的科学边界相似发达出色。

在 2025 年海外物理奥林匹克竞赛和化学奥林匹克竞赛中，Gemini 3 Deep Think 在笔试部分获取了金牌级别的收获。

{jz:field.toptypename/}

此外，它还展现了在高等表面物理方面的才能，在 CMT-Benchmark 测试中获取了 50.5% 的分数。

华东说念主带队，打造最强推理模子

Gemini 3 Deep Think 的研发团队中，有不少华东说念主身影。

中枢成员包括 95 后华东说念主科学家Yi Tay，他在 Gemini 团队中从事强化学习和推理标的的扣问使命。

此前，他曾在 Google Brain 共同指引早期大言语模子神志，包括 PaLM-2、UL2 和 Flan-2。

在 Google Brain 使命 3 年多之后，2023 – 2024 年间，Yi Tay 曾旋即离开谷歌，动作王人集首创东说念主创办了一家独角兽 AI 初创公司—— Reka。

Reka AI 由 DeepMind、谷歌和 Meta 的扣问东说念主员创立，其创办初志是打造功能庞杂且高效的基础模子，目下也开采界面联想、应用逻辑以至极他应用方面的器用。

在创业一年半后，Yi Tay 便重返谷歌 DeepMind，担任高档资深扣问科学家，连续从事东说念主工智能和大言语模子的扣问。

客岁刚从 Anthropic 跳槽到谷歌 DeepMind 的清华学友姚顺宇，也参与了 Deep think 新模子的开采。

姚顺宇本科就读于清华大学物理系，曾拿下过清华本科生非凡奖学金（清华授予在校优秀本科生的最高奖学金荣誉）。

本科时间，他就已在《Physical Review Letters》（海外物理学边界最顶级的学术期刊之一）发表高水平论文，初度在海外上给出了对于非厄米系统的拓扑能带表面，不仅准确预计了有关征象，还界说了两个新的物理成见。

本科毕业后，他赴斯坦福大学连续攻读博士，专注于量子多体暗昧、绽开量子系统能源学等前沿问题，师从 Douglas Stanford（好意思国表面物理学家，被同业视为顶尖且有后劲编削物理学发展标的的年青科学家之一）、Zhenbin Yang（杨振斌，华侨好意思国科学家，公认的 20 世纪最贫乏的物理学家之一）等著明学者。

博士毕业后，他先是去 UC 伯克利作念博士后扣问，随后加入了 Anthropic。在 Anthropic 使命的一年时间里，他参与组建了强化学习基础团队，幽静了 Claude 3.7 Sonnet 框架，以及 Claude 4 系列背后的基本强化学习表面。

离开 Anthropic 之后，姚顺宇转战谷歌 DeepMind，连续从事 AI 方面的扣问。这次 Deep Think 新模子发布，亦然他在谷歌的首秀之作。

参考联结：

[ 1 ] https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

[ 2 ] https://x.com/ShunyuYao14/status/2022013770843967900

[ 3 ] https://x.com/YiTayML/status/2021988841142534287

[ 4 ] https://x.com/NoamShazeer/status/2021988459519652089

[ 5 ] https://x.com/PKUCXK/status/2022144532272623990

— 宽容 AI 家具从业者共建 —

� �「AI 家具学问库」是量子位智库基于恒久家具库跟踪和用户行动数据推出的飞书学问库，旨在成为 AI 行业从业者、投资者、扣问者的中枢信息要害与方案相沿平台。

一键暖和 � � 点亮星标

科技前沿进展逐日见