LLM西洋棋赛落幕:OpenAI o3 夺冠,xAI Grok 4 没赢一盘被完封
Kaggle AI 国际西洋棋赛落幕,未经专门训练的 o3 以 4-0 完封击败 Grok 4,显现推理能力极强。
(前情提要:马斯克扬言提告苹果:App Store 排名存在垄断行为,恶意打压 Grok )
(背景补充:Grok 4 今开放免费使用,马斯克 xAI 与 GPT-5 正面交锋 )
近日 Google 旗下 Kaggle 举办的「人工智慧西洋棋表演赛」8 月 14 日公布结果,OpenAI 通用大型语言模型 o3 以 4 : 0 横扫 xAI 的 Grok 4,夺下冠军,并成为首个在未经专门训练下完封对手的 LLM。
赛事共 8 组 AI 参与,为期三天,以淘汰赛决胜。
语言模型比赛看点
根据 OpenTools.ai 报导,o3 在一路晋级过程中连续三场交出 4 : 0 的完封成绩,準决赛更淘汰自家轻量版 o4 mini。
相较之下,Grok 4 常在早盘一度领先,却于赛事最末多次「丢后」(牺牲行动力最强的 Queen)。西洋棋特级大师 Hikaru Nakamura 评价 o3 「错误极少」,并指 Grok 4 常出现战术自爆。
前世界冠军 Magnus Carlsen 形容 Grok 的棋风:
像在看小孩下棋。
他估算 Grok 的 Elo 约 800,o3 约 1200,远低于顶尖人类或专精型棋类 AI。
通用型 AI 与专精型 AI 角力
Stockfish 这类专精型系统靠深度搜寻与领域评分,长期坐拥约 3644 Elo。通用型 LLM 则透过大规模跨领域语料学习,下棋仅是推理能力的延伸。虽然 o3 能击败 Grok 4,但今年稍早仍不敌 Stockfish,显示通用模型在棋艺游戏推理的稳定性与深度计算上仍有差距。