Warning: mkdir(): No space left on device in /www/wwwroot/new6.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/jiangjiaolong.com/cache/b6/16b58/2b399.html): failed to open stream: No such file or directory in /www/wwwroot/new6.com/func.php on line 115
阜阳投资发展集团有限公司

您的当前位置:首页 > 知识 > 马斯克发布Grok3:多项测试超越DeepSeek,展现强劲竞争力 正文

马斯克发布Grok3:多项测试超越DeepSeek,展现强劲竞争力

时间:2025-05-13 02:53:01 来源:网络整理 编辑:知识

核心提示

xAI今日发布新一代大语言模型Grok-3及其精简版Grok-3 mini。最新基准测试显示,Grok-3在与DeepSeek的直接对比中展现出显著优势。在数学能力测试AIME'24)中,Grok-3


xAI今日发布新一代大语言模型Grok-3及其精简版Grok-3 mini。最新基准测试显示,试超Grok-3在与DeepSeek的展争力直接对比中展现出显著优势。

在数学能力测试(AIME'24)中,劲竞Grok-3获得52分,项测现强明显超过DeepSeek-V3的试超39分。科学知识评估(GPQA)方面,展争力Grok-3以75分的劲竞成绩领先,而DeepSeek-V3为65分。项测现强在编程能力测试(LCB Oct-Feb)中,试超Grok-3同样以57分超过DeepSeek-V3的展争力36分。


最新公布的AIME 2025性能测试中,Grok-3 Reasoning Beta版本在推理和计算时间复合评分上取得93分的项测现强优异成绩,其精简版本Grok-3 mini也达到了90分。试超相比之下,展争力DeepSeek-R1的得分为75分,而Gemini-2 Flash Thinking仅为54分。这一结果进一步凸显了Grok-3在复杂数学推理和计算效率方面的突出优势。


特别值得注意的是,DeepSeek近期发布的DeepSeek-R1在其他推理能力测试中也未能赶超Grok-3。在数学推理中,Grok-3获得93分,DeepSeek-R1为73分;科学推理中,Grok-3得分85分,DeepSeek-R1为74分;编程推理中,Grok-3达到79分,而DeepSeek-R1为65分。


此外,在LMSYS聊天机器人竞技场评估中,Grok-3的得分约为1400分,不仅超过了DeepSeek系列,也领先于其他主流大模型,包括GPT-4、Claude等。


这些数据表明,尽管DeepSeek在过去几个月展现出强劲的发展势头,但Grok-3的整体性能仍然保持领先地位。特别是在数学推理和计算效率方面的优势更为明显,这不仅体现了xAI在模型研发上的技术实力,也显示出AI领域竞争的白热化程度。

© AI范儿

要进“交流群”,请关注公众号获取进群方式

投稿、需求合作或报道请添加公众号获取联系方式

点这里关注我,记得标星哦~

网站地图