您的當前位置:首頁 > 知識 > 馬斯克發布Grok3:多項測試超越DeepSeek,展現強勁競爭力 正文
時間:2025-05-15 01:32:45 來源:網絡整理 編輯:知識
xAI今日發布新一代大語言模型Grok-3及其精簡版Grok-3 mini。最新基準測試顯示,Grok-3在與DeepSeek的直接對比中展現出顯著優勢。在數學能力測試AIME'24)中,Grok-3
xAI今日發布新一代大語言模型Grok-3及其精簡版Grok-3 mini。最新基準測試顯示,試超Grok-3在與DeepSeek的展爭力直接對比中展現出顯著優勢。
在數學能力測試(AIME'24)中,勁競Grok-3獲得52分,項測現強明顯超過DeepSeek-V3的試超39分。科學知識評估(GPQA)方麵,展爭力Grok-3以75分的勁競成績領先,而DeepSeek-V3為65分。項測現強在編程能力測試(LCB Oct-Feb)中,試超Grok-3同樣以57分超過DeepSeek-V3的展爭力36分。
最新公布的AIME 2025性能測試中,Grok-3 Reasoning Beta版本在推理和計算時間複合評分上取得93分的項測現強優異成績,其精簡版本Grok-3 mini也達到了90分。試超相比之下,展爭力DeepSeek-R1的得分為75分,而Gemini-2 Flash Thinking僅為54分。這一結果進一步凸顯了Grok-3在複雜數學推理和計算效率方麵的突出優勢。
特別值得注意的是,DeepSeek近期發布的DeepSeek-R1在其他推理能力測試中也未能趕超Grok-3。在數學推理中,Grok-3獲得93分,DeepSeek-R1為73分;科學推理中,Grok-3得分85分,DeepSeek-R1為74分;編程推理中,Grok-3達到79分,而DeepSeek-R1為65分。
此外,在LMSYS聊天機器人競技場評估中,Grok-3的得分約為1400分,不僅超過了DeepSeek係列,也領先於其他主流大模型,包括GPT-4、Claude等。
這些數據表明,盡管DeepSeek在過去幾個月展現出強勁的發展勢頭,但Grok-3的整體性能仍然保持領先地位。特別是在數學推理和計算效率方麵的優勢更為明顯,這不僅體現了xAI在模型研發上的技術實力,也顯示出AI領域競爭的白熱化程度。
© AI範兒
要進“交流群”,請關注公眾號獲取進群方式
投稿、需求合作或報道請添加公眾號獲取聯係方式
點這裏關注我,記得標星哦~
火影忍者中擁有“大長腿”的5個女忍者,這腿我能玩一年2025-05-15 01:31
生疏男假扮培修工入室騷擾女客人 疑有精力病2025-05-15 01:19
鼓浪嶼最美社區園圃每年評兩次 開端步履實行方案出爐2025-05-15 01:18
廈門機場執行夏秋航班規劃新開濟州島按期航班2025-05-15 01:04
10個賽點!斯諾克世錦賽決賽:趙心童172025-05-15 01:03
“三不”金牌鍛練王開國執教嚴酷 測驗經由過程率達90%以上2025-05-15 00:51
廈門現疑似爆炸物包裹 原是4根膠布裹著的臘腸2025-05-15 00:23
廈大肆行建校93周年慶祝年夜會 收到3.19億元捐錢2025-05-15 00:13
穩市場金融政策再發力:降準降息提供萬億流動性,公積金貸款利率下調、年節省200億利息2025-05-14 23:39
發生刮擦司機錯踩油門 麵包車猛衝向前連撞5車2025-05-14 23:20
巴軍擊落5架印軍戰機2025-05-15 01:16
“礦物質水”或被革職 尚未製定礦物質飲用水尺度2025-05-15 00:52
小長假首日自駕遊火爆 四橋一隧僅集美年夜橋暢達2025-05-15 00:44
5月17日金投賞廈門峰會引海都讀者征詢潮2025-05-15 00:43
珠江啤酒:5月6日融資淨買入74.93萬元,連續3日累計淨買入1501.44萬元2025-05-15 00:17
廈門“五一”去哪裏玩?看年夜黃鴨品海滄三寶2025-05-14 23:50
廈門620、621路公交車首末班運營時間調解2025-05-14 23:40
廈門6路、82路公交將延長至五通客運船埠始發2025-05-14 23:21
體彩助力2025年廣州從化騎行活動 近千人在“山水畫”中穿行2025-05-14 23:15
一季度都會空氣品質狀態排名 廈門位列天下第八2025-05-14 23:10