best365官方网站 | best365

best365官方网站_best365官方网站登录入口

当前位置:主页 > 新闻资讯 > 公司新闻 >

测试“世界最聪慧”的 Grok3:它真的是模子边沿

耗费了 DeepSeek V3 的 263 倍的算力的 Grok3,就这? 作者 | 极客公园 张勇毅 北京时光 2 月 18 日,马斯克与 xAI 团队,在直播中正式宣布了 Grok 最新版本 Grok3。 早在本次宣布会之前,依附着各种相干信息的抛出,加上马斯克自己 24/7 不连续的预热炒作,让寰球对 Grok3 的等待值被拉到了绝后的水平。在一周前,马斯克在直播中批评 DeepSeek R1 时,还信念满满地表现「xAI 行将推出更优良的 AI 模子」。 从现场展现的数据来看,Grok3 在数学、迷信与编程的基准测试上曾经超出了现在全部的主流模子,马斯克乃至声称 Grok 3 将来将用于 SpaceX 火星义务盘算,并猜测「三年内将实现诺贝尔奖级别冲破」。 但这些现在都只是马斯克的一家之言。笔者在宣布后,就测试了最新的 Beta 版 Grok3,并提出了谁人经典的用来刁难年夜模子的成绩:「9.11 与 9.9 哪个年夜?」 遗憾的是,在不加任何定语以及标注的情形下,号称现在最聪慧的 Grok3,依然无奈准确答复这个成绩。 Grok3 并没正确辨认出这个成绩的含意 | 图片起源:极客公园 在这个测试收回之后,很短的时光内敏捷激发了不少友人的存眷,独一无二,在海内也有良多相似成绩的测试,比方「比萨斜塔上两个球哪个先落下」这些基本物理/数学识题,Grok3 也被发明依然无奈应答。因而被戏称为「蠢才不肯意答复简略成绩」。 Grok3 在现实测试中的很多知识成绩上呈现「翻车」 | 图片起源:X 除了网友自发测试的这些基本常识上 Grok3 呈现了翻车,在 xAI 宣布会直播中,马斯克演示应用 Grok3 来剖析他号称常常玩的 Path of Exile 2 (放逐之路 2) 对应的职业与升华后果,但现实上 Grok3 给出的对应对案绝年夜局部都是过错的。直播中的马斯克并不看出这个显明的成绩。 Grok3 在直播中也呈现给出数据大批过错的情形 | 图片起源:X 因而这个掉误不只成为了海内网友再次讥嘲马斯克打游戏「找代练」的实锤证据,同时也为 Grok3 在现实利用中的牢靠性,再次打上了一个年夜年夜的问号。 对如许的「蠢才」,无论现实才能多少何,将来被用于火星摸索义务如许的非常庞杂的利用场景,其牢靠性都要打上一个年夜年夜的问号。 现在,浩繁在多少周前取得 Grok3 测试资历、以及昨天刚用上多少个小时的模子才能测试者,对 Grok3 以后的表示,都指向了一个雷同的论断: 「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」 「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」 | 图片起源:X Grok3 在宣布中官方的 PPT 中,在年夜模子竞技场 Chatbot Arena 中实现「遥遥当先」,但这实在也利用了一些小小的作图技能:榜单的纵轴仅列出了 1400-1300 分段的排名,让底本 1% 的测试成果差距,在这个 PPT 展现中都变得异样显明。 官方宣布 PPT 中的「遥遥当先」后果 | 图片起源:X 而现实的模子跑分成果,Grok3 实在也只比 DeepSeek R1 以及 GPT4.0 实现了不到 1-2% 的差距:这对应了不罕用户在现实测试中「并无显明差异」的体感后果。 现实上的 Grok3,只比厥后者高了 1%-2% | 图片起源:X 别的固然在分数上,Grok3 超越了现在公然测试的全部模子,但这一点并不被良多人买账:究竟 xAI 在 Grok2 时期就有在这个榜单中「刷分」,跟着榜单对答复长度作风做降权处置而年夜幅下降分数的情形,因而常常被业内子士诟病「高分低能」。 无论是榜单「刷分」,仍是配图计划上的「小技能」,都展现出的是 xAI 以及马斯克自己对模子才能「遥遥当先」这件事的执念。 而为了这些差距,马斯克所支付的价值可谓昂扬:在宣布会中,马斯克用近乎夸耀的口气表现,用了 20 万张 H100(马斯克直播中表现应用「超越 10 万」张) 练习 Grok3,总练习小时数到达两亿小时。这让一局部人感到这是对 GPU 行业的又一个严重利好,并以为 DeepSeek 给行业带来的震撼是「笨拙」的。 不少人以为堆砌算力将会是模子练习的将来 | 图片起源:X 但现实上,有网友对照了应用 2000 张 H800 练习两个月得出的 DeepSeek V3,盘算出 Grok3 实在际的练习算力耗费是 V3 的 263 倍。而 DeeSeek V3 在年夜模子竞技场榜单上与得分 1402 分的 Grok3 的差距,乃至还不到 100 分罢了。 从这些数据出炉之后,就有不少人疾速认识到,在 Grok3 登顶「天下最强」的背地,实在是模子越年夜,机能越强的逻辑,曾经呈现了显明的边沿效应。 即便是「高分低能」的 Grok2,其背地也有着 X(Twitter)平台内海量的高品质第一方数据作为支持来应用。而到了 Grok3 的练习中,xAI 天然也会碰到 OpenAI 以后同样碰到的「天花板」——优质练习数据的缺乏,让模子才能的边沿效应敏捷曝光。 对这些现实,最早认识到而且也是最深入懂得的人,确定是 Grok3 的开辟团队与马斯克,因而马斯克也在交际媒体上一直表现以后用户休会到的版本「还仅仅只是测试版」「完全版将在将来多少个月推出」。马斯克自己更是化身 Grok3 产物司理,倡议用户直接在批评区反应应用时所碰到的种种成绩。 他大略是地球上粉丝数目最多的产物司理 | 图片起源:X 但不到一天之内,Grok3 的表示,无疑给寄盼望依附「鼎力飞砖」练习出才能更强的年夜模子的厥后者敲响了警钟:依据微软公然的信息揣测,OpenAI GPT4 参数体积为 1.8 万亿参数,比拟 GPT3 曾经晋升了超越 10 倍,而风闻中的 GPT4.5 的参数体积乃至还会更年夜。 模子参数体积飞涨的同时练习本钱也在飙升 | 图片起源:X 有 Grok3 在前,GPT4.5 以及更多想要持续「烧钱」,以参数体积来取得更好模子机能的选手,都不得不斟酌到曾经近在面前的天花板,应当怎么冲破。 此时现在,OpenAI 的前首席迷信家 Ilya Sutskever 在客岁 12 月曾表现「咱们所熟习的预练习将会停止」,又被人从新记起来,并试图从中找到年夜模子练习的真正前途。 Ilya 的观念,曾经为行业敲响了警钟 | 图片起源:X 彼时, Ilya 正确预感到了可用的新数据濒临干涸,模子难以再持续经由过程获取数据来晋升机能的情形,并这种情形描述为化石燃料的耗费,表现「正如石油是无限资本一样,互联网中由人类天生的内容也是无限的」。 在 Sutskever 猜测中,预练习模子之后的下一代模子将会有「真正的自立性」。同时将具有「相似人脑」的推理才能。 与现在预练习模子重要依附的内容婚配(基于模子此前进修的内容)差别,将来的 AI 体系将可能以相似于人脑「头脑」的方法,来逐渐进修并树立起处理成绩的方式论。 人类对某一个学科做到基础的粗通,只要要基础专业册本即可实现,但 AI 年夜模子却须要进修数以百万计的数据才干实现最基本的入门后果,乃至当你换了个问法之后,这些基本的成绩也无奈准确懂得,模子在真正的智能上并不失掉晋升:文章扫尾提到的那些基本但 Grok3 依然无奈准确答复的成绩,就是这种景象的直不雅表现。 但在「力年夜飞砖」之外,Grok3 假如真的能向行业提醒「预练习模子行将走到止境」这个现实,那它对行业依然称得上有侧重要的启示意思。 或者,在 Grok3 的怒潮逐步褪去之后,咱们也能看到,更多相似李飞飞「在特定命据集的基本上 50 美元微调出高机能模子」的案例呈现。并在这些摸索中,终极找到真正通向 AGI 的途径。 新浪财经大众号 24小时转动播报最新的财经资讯跟视频,更多粉丝福利扫描二维码存眷(sinafinance)
Copyright © 2024-2026 best365官方网站_best365官方网站登录入口 版权所有

网站地图

备案号: