米乐app登录姚顺宇谷歌首秀，Gemini新模子刷爆SOTA：仅剩7东说念主捍卫碳基编程

米乐体育app官方网站

热点资讯

米乐app下载拉涅利：罗马的引援皆取得了主帅的批准，曾追求桑乔但球员不思来

米乐app下载拜仁官方：今夏将前去中国香港和韩国，8月7日在启德开放场踢维拉

米乐app下载 81岁TVB老戏骨叱咤大女儿终了要挟前妻！宗子强烈否定：为小女儿

米乐app下载再战全国杯，这回马宁能否主哨？中国裁判的新机遇

米乐app登录当今的初中数学, 真是很难吗?

米乐体育

你的位置：米乐体育app官方网站 > 米乐体育 >

米乐app登录姚顺宇谷歌首秀，Gemini新模子刷爆SOTA：仅剩7东说念主捍卫碳基编程

濒临Claude Opus 4.6和GPT Codex 5.3的横暴攻势，反手等于一个Gemini 3 Deep Think的要紧升级。

在Codeforces（一个包含各式竞技编程挑战的基准测试平台）上，它得到了惊东说念主的3455Elo分数，超过于宇宙第8名

这下子，公共惟有7东说念主的编程水平能排在它前边了。而此前最高分是一年前o3拿下的2727 Elo。

Gemini 3 Deep Think的实力不啻于此，它还胜仗把ARC-AGI-2——这个公认测试AI推理才气的前沿基准，给刷到了史无先例的84.6%

要知说念，之前最强模子的得分在60%-70%之间踟蹰，Claude Opus 4.6的获利也惟有68.8%。

东说念主类临了磨真金不怕火（HLE）上，Gemini 3 Deep Think也刷新SOTA，拿下了48.4%的获利。

官方暗示，新版Deep Think是谷歌有益设立的推理模式，旨在激动智能前沿发展，并贬责科学、研讨和工程范围的当代挑战。

另一位“尧舜禹”——清华物理系据说特奖得主姚顺宇（Shunyu Yao），旧年9月加入谷歌DeepMind，亦然这次Deep Think新模子的参与者。

新版DeepThink照旧走进了实验室

升级后的Gemini 3 Deep Think实力究竟有多强？

它的意想打算不啻于赢得基准测试，而是要走进科研和工程范围，匡助工程师处理复杂任务。

新版Deep Think不错分析草图，对复杂体式进行建模，并胜仗生成用于3D打印的实体文献。这是它打印的一个条记本电脑支架：

谷歌VP Josh Woodward 在X上晒出了打印的终了，看起来对草图超过复原：

罗格斯大学的数学家Lisa Carbone，愚弄Gemini 3 Deep Think审阅了一篇高度专科的数学论文。

终了Gemini 3 Deep Think告捷地识别出了一个轻细的逻辑弱势，而这个弱势在此前的东说念主工同业评审中均未被发现。

杜克大学的王安实验室，愚弄Gemini 3 Deep Think技能优化了复杂晶体滋长的制备门径，以期发现新的半导体材料。

终了Gemini 3 Deep Think告捷联想了一种简略滋长厚度大于 100 微米薄膜的工艺，达到了以往门径难以企及的精准办法。

在X上，DeepSeek多模态团队研讨员XiaoKang Chen也暗示：Gemini 3 Deep Think相配擅所长理科学范围中的长尾任务。

他给Deep Think输入了一张复杂分子结构的图片，随后模子便准确地诡计出了分子式。

勇夺三项新SOTA，推理本钱镌汰82%

旧年Deep Think有益版照旧IMO等海外竞赛中夺下金牌。目下，全新升级后的Deep Think又在多项高难度的基准测试中全面刷新SOTA：

不使用任何器用，在HLE中得到新SOTA——48.4%在ARC-AGI-2测试中得到前所未有的84.6%的获利，并经 ARC Prize 基金会考据；在Codeforces上得到了惊东说念主的3455Elo分数；在2025年海外数学奥林匹克竞赛中达到金牌水平。

其中，ARC-AGI-2被誉为AI界的“图灵测试”，旨在揣度模子处理从未见过的新颖推理任务的才气

要知说念，旧年12月刚发布的初代Deep Think得分如故45.1%，不到三个月时辰照旧飙升到84.6%，比Opus 4.6还要强出一截。

而在ARC-AGI-1上，Gemini 3 Deep Think得到了96%的获利，胜仗顶到天花板了。

性能晋升的同期，米乐app推理本钱也在大幅下跌。初代Deep Think履行每项任务的本钱为77.16好意思元。这次升级让本钱镌汰了82%，每项任务仅需13.62好意思元

由于1和2王人被Gemini刷爆了，目下ARC Prize照旧在构建ARC-AGI-3了……

除了数学和编程，升级后的Deep Think在化学和物理等平凡的科学范围通常判辨出色。

{jz:field.toptypename/}

在2025年海外物理奥林匹克竞赛和化学奥林匹克竞赛中，Gemini 3 Deep Think在笔试部分得到了金牌级别的获利。

此外，它还展现了在高等表面物理方面的才气，在CMT-Benchmark测试中得到了50.5%的分数。

华东说念主带队，打造最强推理模子

Gemini 3 Deep Think的研发团队中，有不少华东说念主身影。

中枢成员包括95后华东说念主科学家Yi Tay，他在Gemini团队中从事强化学习和推理标的的研讨责任。

此前，他曾在Google Brain共同提醒早期大说话模子神色，包括PaLM-2、UL2和Flan-2。

在Google Brain责任3年多之后，2023–2024 年间，Yi Tay曾俄顷离开谷歌，行动集合首创东说念主创办了一家独角兽AI初创公司——Reka。

Reka AI由DeepMind、谷歌和Meta的研讨东说念主员创立，其创办初志是打造功能宽阔且高效的基础模子，目下也设立界面联想、应用逻辑以过甚他应用方面的器用。

在创业一年半后，Yi Tay便重返谷歌DeepMind，担任高等资深研讨科学家，继续从事东说念主工智能和大说话模子的研讨。

旧年刚从Anthropic跳槽到谷歌DeepMind的清华学友姚顺宇，也参与了Deep think新模子的设立。

姚顺宇本科就读于清华大学物理系，曾拿下过清华本科生突出奖学金（清华授予在校优秀本科生的最高奖学金荣誉）

本科时代，他就已在《Physical Review Letters》（海外物理学范围最顶级的学术期刊之一）发表高水平论文，初度在海外上给出了对于非厄米系统的拓扑能带表面，不仅准确展望了关联方式，还界说了两个新的物理倡导。

本科毕业后，他赴斯坦福大学继续攻读博士，专注于量子多体腌臜、绽放量子系统能源学等前沿问题，师从Douglas Stanford（好意思国表面物理学家，被同业视为顶尖且有后劲调动物理学发展标的的年青科学家之一）、Zhenbin Yang（杨振斌，华侨好意思国科学家，公认的20世纪最垂危的物理学家之一）等著名学者。

博士毕业后，他先是去UC伯克利作念博士后研讨，随后加入了Anthropic。在Anthropic责任的一年时辰里，他参与组建了强化学习基础团队，肃肃了Claude 3.7 Sonnet框架，以及Claude 4系列背后的基本强化学习表面。

离开Anthropic之后，姚顺宇转战谷歌DeepMind，继续从事AI方面的研讨。这次Deep Think新模子发布，亦然他在谷歌的首秀之作

[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/[2]https://x.com/ShunyuYao14/status/2022013770843967900[3]https://x.com/YiTayML/status/2021988841142534287[4]https://x.com/NoamShazeer/status/2021988459519652089[5]https://x.com/PKUCXK/status/2022144532272623990

友情链接：

nmzhuoyue.com 备案号备案号:

技术支持:®米乐app RSS地图 HTML地图