您的当前位置:首页 > 知识 > 马斯克发布Grok3:多项测试超越DeepSeek,展现强劲竞争力 正文
时间:2025-05-13 02:53:01 来源:网络整理 编辑:知识
xAI今日发布新一代大语言模型Grok-3及其精简版Grok-3 mini。最新基准测试显示,Grok-3在与DeepSeek的直接对比中展现出显著优势。在数学能力测试AIME'24)中,Grok-3
xAI今日发布新一代大语言模型Grok-3及其精简版Grok-3 mini。最新基准测试显示,试超Grok-3在与DeepSeek的展争力直接对比中展现出显著优势。
在数学能力测试(AIME'24)中,劲竞Grok-3获得52分,项测现强明显超过DeepSeek-V3的试超39分。科学知识评估(GPQA)方面,展争力Grok-3以75分的劲竞成绩领先,而DeepSeek-V3为65分。项测现强在编程能力测试(LCB Oct-Feb)中,试超Grok-3同样以57分超过DeepSeek-V3的展争力36分。
最新公布的AIME 2025性能测试中,Grok-3 Reasoning Beta版本在推理和计算时间复合评分上取得93分的项测现强优异成绩,其精简版本Grok-3 mini也达到了90分。试超相比之下,展争力DeepSeek-R1的得分为75分,而Gemini-2 Flash Thinking仅为54分。这一结果进一步凸显了Grok-3在复杂数学推理和计算效率方面的突出优势。
特别值得注意的是,DeepSeek近期发布的DeepSeek-R1在其他推理能力测试中也未能赶超Grok-3。在数学推理中,Grok-3获得93分,DeepSeek-R1为73分;科学推理中,Grok-3得分85分,DeepSeek-R1为74分;编程推理中,Grok-3达到79分,而DeepSeek-R1为65分。
此外,在LMSYS聊天机器人竞技场评估中,Grok-3的得分约为1400分,不仅超过了DeepSeek系列,也领先于其他主流大模型,包括GPT-4、Claude等。
这些数据表明,尽管DeepSeek在过去几个月展现出强劲的发展势头,但Grok-3的整体性能仍然保持领先地位。特别是在数学推理和计算效率方面的优势更为明显,这不仅体现了xAI在模型研发上的技术实力,也显示出AI领域竞争的白热化程度。
© AI范儿
要进“交流群”,请关注公众号获取进群方式
投稿、需求合作或报道请添加公众号获取联系方式
点这里关注我,记得标星哦~
中美经贸高层会谈 外交部:中方坚决反对美国滥施关税这一立场没有任何变化2025-05-13 02:36
走过春夏秋冬季候的变化咱们也在逐步逐步地长年夜是什么歌 《本来是你》歌词2025-05-13 02:32
多措并举保康健 竭尽全力防重症—新冠病毒传染“乙类乙管”落地福建首日见闻2025-05-13 02:22
尼泊尔年夜地动最新伤亡 至多1910人罹难 首都721人2025-05-13 02:20
金种子酒:5月6日融券卖出100股,融资融券余额2.98亿元2025-05-13 01:48
将来金价总体呈上行趋向 央行或增长黄金贮备2025-05-13 01:32
文昌“少女遭围殴”处置惩罚成果引议 校园凌辱措置重平息?2025-05-13 01:00
中国共产党第二十届中心委员会第一次整体集会公报2025-05-13 00:57
星座运势解析,天蝎座8月份运势展望2025-05-13 00:56
新春走下层丨北纬53° 保卫零下50度的中国2025-05-13 00:52
观酒2025-05-13 02:27
华裔年夜学:本年将面向厦门单列规划200人2025-05-13 02:11
蔡依林金曲奖演出什么歌 以美为题与32位舞者同台2025-05-13 02:10
互联网年夜佬们的音乐素养提高了?马云发现全新律动···2025-05-13 02:02
西安碑林博物馆全票价格将调至85元/人次,馆方回应→2025-05-13 01:56
俄乐成发射“同盟MS2025-05-13 01:54
云顶天宫小哥为什么出来青铜门 小哥去青铜门目的是什么2025-05-13 01:31
《孙悟空三打白骨精》预报首曝 师徒四人外型倾覆三不雅2025-05-13 01:15
「3月星座桃花大揭秘」双鱼座爱情运势比肩金牛,巨蟹?2025-05-13 00:31
谢贤感触想不到谢霆锋会同样走上仳离之路 很喜爱张柏芝2025-05-13 00:30