测试“世界最聪慧”的 Grok3：它真的是模子边沿

时间：2025-02-20 08:48 作者：[db:作者]

耗费了 DeepSeek V3 的 263 倍的算力的 Grok3，就这？作者 | 极客公园张勇毅北京时光 2 月 18 日，马斯克与 xAI 团队，在直播中正式宣布了 Grok 最新版本 Grok3。早在本次宣布会之前，依附着各种相干信息的抛出，加上马斯克自己 24/7 不连续的预热炒作，让寰球对 Grok3 的等待值被拉到了绝后的水平。在一周前，马斯克在直播中批评 DeepSeek R1 时，还信念满满地表现「xAI 行将推出更优良的 AI 模子」。从现场展现的数据来看，Grok3 在数学、迷信与编程的基准测试上曾经超出了现在全部的主流模子，马斯克乃至声称 Grok 3 将来将用于 SpaceX 火星义务盘算，并猜测「三年内将实现诺贝尔奖级别冲破」。但这些现在都只是马斯克的一家之言。笔者在宣布后，就测试了最新的 Beta 版 Grok3，并提出了谁人经典的用来刁难年夜模子的成绩：「9.11 与 9.9 哪个年夜？」遗憾的是，在不加任何定语以及标注的情形下，号称现在最聪慧的 Grok3，依然无奈准确答复这个成绩。 Grok3 并没正确辨认出这个成绩的含意 | 图片起源：极客公园在这个测试收回之后，很短的时光内敏捷激发了不少友人的存眷，独一无二，在海内也有良多相似成绩的测试，比方「比萨斜塔上两个球哪个先落下」这些基本物理/数学识题，Grok3 也被发明依然无奈应答。因而被戏称为「蠢才不肯意答复简略成绩」。 Grok3 在现实测试中的很多知识成绩上呈现「翻车」 | 图片起源：X 除了网友自发测试的这些基本常识上 Grok3 呈现了翻车，在 xAI 宣布会直播中，马斯克演示应用 Grok3 来剖析他号称常常玩的 Path of Exile 2 (放逐之路 2) 对应的职业与升华后果，但现实上 Grok3 给出的对应对案绝年夜局部都是过错的。直播中的马斯克并不看出这个显明的成绩。 Grok3 在直播中也呈现给出数据大批过错的情形 | 图片起源：X 因而这个掉误不只成为了海内网友再次讥嘲马斯克打游戏「找代练」的实锤证据，同时也为 Grok3 在现实利用中的牢靠性，再次打上了一个年夜年夜的问号。对如许的「蠢才」，无论现实才能多少何，将来被用于火星摸索义务如许的非常庞杂的利用场景，其牢靠性都要打上一个年夜年夜的问号。现在，浩繁在多少周前取得 Grok3 测试资历、以及昨天刚用上多少个小时的模子才能测试者，对 Grok3 以后的表示，都指向了一个雷同的论断：「Grok3 是很好，但它并不比 R1 或 o1-Pro 更好」「Grok3 是很好，但它并不比 R1 或 o1-Pro 更好」 | 图片起源：X Grok3 在宣布中官方的 PPT 中，在年夜模子竞技场 Chatbot Arena 中实现「遥遥当先」，但这实在也利用了一些小小的作图技能：榜单的纵轴仅列出了 1400-1300 分段的排名，让底本 1% 的测试成果差距，在这个 PPT 展现中都变得异样显明。官方宣布 PPT 中的「遥遥当先」后果 | 图片起源：X 而现实的模子跑分成果，Grok3 实在也只比 DeepSeek R1 以及 GPT4.0 实现了不到 1-2% 的差距：这对应了不罕用户在现实测试中「并无显明差异」的体感后果。现实上的 Grok3，只比厥后者高了 1%-2% | 图片起源：X 别的固然在分数上，Grok3 超越了现在公然测试的全部模子，但这一点并不被良多人买账：究竟 xAI 在 Grok2 时期就有在这个榜单中「刷分」，跟着榜单对答复长度作风做降权处置而年夜幅下降分数的情形，因而常常被业内子士诟病「高分低能」。无论是榜单「刷分」，仍是配图计划上的「小技能」，都展现出的是 xAI 以及马斯克自己对模子才能「遥遥当先」这件事的执念。而为了这些差距，马斯克所支付的价值可谓昂扬：在宣布会中，马斯克用近乎夸耀的口气表现，用了 20 万张 H100（马斯克直播中表现应用「超越 10 万」张) 练习 Grok3，总练习小时数到达两亿小时。这让一局部人感到这是对 GPU 行业的又一个严重利好，并以为 DeepSeek 给行业带来的震撼是「笨拙」的。不少人以为堆砌算力将会是模子练习的将来 | 图片起源：X 但现实上，有网友对照了应用 2000 张 H800 练习两个月得出的 DeepSeek V3，盘算出 Grok3 实在际的练习算力耗费是 V3 的 263 倍。而 DeeSeek V3 在年夜模子竞技场榜单上与得分 1402 分的 Grok3 的差距，乃至还不到 100 分罢了。从这些数据出炉之后，就有不少人疾速认识到，在 Grok3 登顶「天下最强」的背地，实在是模子越年夜，机能越强的逻辑，曾经呈现了显明的边沿效应。即便是「高分低能」的 Grok2，其背地也有着 X（Twitter）平台内海量的高品质第一方数据作为支持来应用。而到了 Grok3 的练习中，xAI 天然也会碰到 OpenAI 以后同样碰到的「天花板」——优质练习数据的缺乏，让模子才能的边沿效应敏捷曝光。对这些现实，最早认识到而且也是最深入懂得的人，确定是 Grok3 的开辟团队与马斯克，因而马斯克也在交际媒体上一直表现以后用户休会到的版本「还仅仅只是测试版」「完全版将在将来多少个月推出」。马斯克自己更是化身 Grok3 产物司理，倡议用户直接在批评区反应应用时所碰到的种种成绩。他大略是地球上粉丝数目最多的产物司理 | 图片起源：X 但不到一天之内，Grok3 的表示，无疑给寄盼望依附「鼎力飞砖」练习出才能更强的年夜模子的厥后者敲响了警钟：依据微软公然的信息揣测，OpenAI GPT4 参数体积为 1.8 万亿参数，比拟 GPT3 曾经晋升了超越 10 倍，而风闻中的 GPT4.5 的参数体积乃至还会更年夜。模子参数体积飞涨的同时练习本钱也在飙升 | 图片起源：X 有 Grok3 在前，GPT4.5 以及更多想要持续「烧钱」，以参数体积来取得更好模子机能的选手，都不得不斟酌到曾经近在面前的天花板，应当怎么冲破。此时现在，OpenAI 的前首席迷信家 Ilya Sutskever 在客岁 12 月曾表现「咱们所熟习的预练习将会停止」，又被人从新记起来，并试图从中找到年夜模子练习的真正前途。 Ilya 的观念，曾经为行业敲响了警钟 | 图片起源：X 彼时， Ilya 正确预感到了可用的新数据濒临干涸，模子难以再持续经由过程获取数据来晋升机能的情形，并这种情形描述为化石燃料的耗费，表现「正如石油是无限资本一样，互联网中由人类天生的内容也是无限的」。在 Sutskever 猜测中，预练习模子之后的下一代模子将会有「真正的自立性」。同时将具有「相似人脑」的推理才能。与现在预练习模子重要依附的内容婚配（基于模子此前进修的内容）差别，将来的 AI 体系将可能以相似于人脑「头脑」的方法，来逐渐进修并树立起处理成绩的方式论。人类对某一个学科做到基础的粗通，只要要基础专业册本即可实现，但 AI 年夜模子却须要进修数以百万计的数据才干实现最基本的入门后果，乃至当你换了个问法之后，这些基本的成绩也无奈准确懂得，模子在真正的智能上并不失掉晋升：文章扫尾提到的那些基本但 Grok3 依然无奈准确答复的成绩，就是这种景象的直不雅表现。但在「力年夜飞砖」之外，Grok3 假如真的能向行业提醒「预练习模子行将走到止境」这个现实，那它对行业依然称得上有侧重要的启示意思。或者，在 Grok3 的怒潮逐步褪去之后，咱们也能看到，更多相似李飞飞「在特定命据集的基本上 50 美元微调出高机能模子」的案例呈现。并在这些摸索中，终极找到真正通向 AGI 的途径。新浪财经大众号 24小时转动播报最新的财经资讯跟视频，更多粉丝福利扫描二维码存眷（sinafinance）

上一篇：两年夜险企结合设破合资企业险资将加至公募
下一篇：没有了