关闭广告

谷歌IMO金牌级Gemini 3深夜上线!华人大神挂帅,OpenAI无力反击

新智元1356人阅读


新智元报道

编辑:桃子 好困

【新智元导读】Gemini 3 Deep Think用2.5倍的暴力性能把GPT-5.1踩在脚下,OpenAI若再不发新模型,这「推理之王」的宝座今天就正式换人了!

太劲爆了!

不过半月,谷歌DeepMind终于放出了IMO最强金牌模型——Gemini 3 Deep Think。


今年夏天,Gemini 2.5 Deep Think分别在IMO、ICPC国际大赛中,拿下了金牌的战绩。

这一次,谷歌为其注入了全新的血液——Gemini 3。

凭借着「并行思考」能力,Gemini 3 Deep Think可以搞定超高难度的数学、科学难题!

在基准测试中,Deep Think全面碾压Gemini 3 Pro,尤其是在HLE上,未用工具拿下了41%高分。

同时在ARC-AGI-2上,以45.1%成绩领跑全球。


下面实例中,同一个指令,让Gemini 3 Pro和Deep Think版基于一张博物馆展馆屋顶的草图,创建一个精确的交互式3D场景。

显然,后者在还原度上,与原图几乎是1:1复刻,并在交互上,光影变化符合物理逻辑。


今天,Gemini 3 Deep Think已在Gemini App上线,所有Ultra用户即可体验。


最强IMO金牌模型来了

Gemini 3 Deep Think正式开启了「深度思考」新纪元,让智能的边界再次拓展。

Gemini 3 Deep Think基于上一代Gemini 2.5 Deep Think迭代而来,在推理能力上实现了质的飞跃。

它专门用于攻克那些连当今最顶尖模型,都感到棘手的复杂数学、科学和逻辑难题。


在多项基准测试中,Gemini 3 Deep Think都拿下了行业领先成绩。

在Humanity’s Last Exam(无工具辅助)上刷爆41%,并在ARC-AGI-2(配合代码执行),创下45.1%新纪录。


在ARC-AGI-1和ARC-AGI-2上,Gemini 3 Deep Think实力堪称无「模」能敌。



左右滑动查看

之所以这么强,是因为Deep Think采用了「并行推理」来同时思考,能够同时探索多种假设。

在谷歌DeepMind放出的更多demo中,可以看出Gemini 3 Deep Think强大之处。

如下,让它打造一款3D版多米诺骨牌游戏。在关卡设置中,Deep Think兼具创意与惊喜,而且还模拟出了真实的碰撞物理效果。


这个例子,是要求Gemini 3 Pro和Deep Think分别在单个HTML文件中创建程序化生成的地球类行星。

左右对比一眼即可看出,Deep Think更加有创造力。


另有开发者实测惊叹道,Gemini 3 Deep Think具备惊人的能力。


上传一张玻璃瓶的照片,让它生成一个软橡胶同款掉在地上的3D动画。


有网友激动地表示,按照这个速度,我们将在2026年真正实现AGI!


华人科学家领衔,AGI王牌队冲刺

同在今天,谷歌DeepMind官宣,将在新加坡组建一支全新的精英团队。

它将由华人科学家Yi Tay率队,专攻高级推理、LLM/RL,以及推进Gemini、Gemini Deep Think等最前沿SOTA模型的发展。

Yi Tay将向位于山景城由Quoc Le(谷歌Fellow级大佬)领导的团队汇报。

恰好,这一团队正是Gemini Deep Think在国际竞赛中夺下金牌的核心力量之一,同时也在Gemini上取得重要进展。


Yi Tay表示,我们会从一支人不多但超强的小团队开始。

因为在大模型的时代,「人才密度」比什么都关键。

关键是,这个团队还能与AI领域传奇大神联动研究,其中就包括「推理之王」Denny Zhou、「香蕉」背后的男人Mostafa Dehghani、AI界的「GOAT」Noam Shazeer。

同时,还有很多「神仙队友」一起加入研究,包括生成式检索的发明人Vinh Q. Tran、IMO金牌项目总负责人Thang Luong、思维链开创者Xuezhi、日本顶尖AI大神Shane Gu等人。

过去几个月,谷歌DeepMind便开始秘密招募全球顶尖人才。

这一项目得到了Demis Hassabis、Jeff Dean等内部高层的大力支持。



如今,他们继续发出英雄招募帖,有机会站上通往AGI的关键赛道。

用不了多久,这支新加坡团队很快就会成为一支战斗力爆表的队伍。


Gemini 3爆冲15%流量

随着Gemini 3 Pro的强势发布,其网页端的市占率再创新高,突破15%大关。

与此同时,Grok也凭借着4.1版本的发布持续增长。

ChatGPT在流量上依然断崖式领先,但份额却在持续下降。



Gemini延续增长势头,访问量达到13.51亿次,较10月增长14.3%。ChatGPT跌破60亿次大关,网站访问量降至58.44亿次。

这是继7月之后,ChatGPT 在 2025 年出现的第二次环比下滑。


尽管在11月18日(Cloudflare宕机当天),ChatGPT创下了单日2.33亿次访问的历史纪录,但这并未扭转整体流量的跌势。

此外,Grok网站访问量达到2.344亿次,创下历史新高,较10月增长14.7%。

这也是该网站自启用当前域名以来,首次实现连续两个月的流量增长。




左右滑动查看

参考资料:

https://x.com/GoogleDeepMind/status/1996658401233842624?s=20

https://x.com/YiTayML/status/1996640869584445882?s=20

https://x.com/Similarweb/status/1995792272785310186

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

插混车纯电续航超过210km,增程车怎么办?

汽车公社 浏览 1117

现代IONIQ3即将全球首发 400V架构 定位小型SUV

汽车公告板 浏览 964

美的致富路,机器人暂未挑大梁

北京商报 浏览 1733

沙溢自曝曾吃了狗吃过的面发烧三天

青杉依旧啊啊 浏览 1933

欧洲区小组赛出局队全部确定:塞尔维亚、匈牙利、以色列在列

懂球帝 浏览 1416

财经早餐:多地明确取消35岁考编限制;商务部回应美方威胁加征100%关税

网易财经 浏览 2063

Amazon和UCLA团队突破传统界限,开启无监督智能训练新纪元

科技行者 浏览 1155

90分钟战报:埃弗顿1-1桑德兰,詹姆斯-加纳点射绝平

懂球帝 浏览 1071

71岁奶奶获健美比赛冠军:把健身当上班 被儿媳夸偶像

环球网资讯 浏览 4513

学生想从公交前门下遭拒 轻声骂了句被司机追下车打伤

大风新闻 浏览 2922

欧洲11国及欧盟领导人联合声明:承诺为乌提供安全保障

环球网资讯 浏览 4987

女子产后抑郁自缢骨灰被丈夫私自下葬 父母苦寻四年

新民晚报 浏览 5229

哈格里夫斯:枪手拥有英超最顶级的四名边卫,其中廷贝尔最强

懂球帝 浏览 1466

没有人不爱这个穿平底鞋都发光的女人

时尚COSMO 浏览 384

辛纳重返世界第一无悬念?网友点出阿利西姆难阻意大利人夺冠原因

网球之家 浏览 1706

联盟各队在恐慌雷霆 战绩第一还手握快船2026年首轮签

仰卧撑FTUer 浏览 1540

邱泽妈妈没想到 这个女人竟把她儿子狠狠“拿捏”

黄小仙的搞笑视频 浏览 1440

一汽丰田10月销售新车71407辆 今年累计销售65.8万辆

网易汽车 浏览 1663

或将于2027年发布 全新宝马X7假想图曝光

车质网 浏览 1336

NBA新赛季大前锋TOP10:字母一枝独秀 浓眉盼健康

体坛周报 浏览 1840

台湾名嘴蔡正元:黄海8天实弹演习只是前菜

看看新闻Knews 浏览 1463
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1