OpenAI o3 横扫Grok 4登顶首届AI棋王中国模型首战折戟显短板-棋坛动态-广象网

北京时间8月8日凌晨，由谷歌DeepMind与Kaggle联合举办的首届AI国际象棋决赛落幕。OpenAI主力模型o3以4-0的压倒性比分击败马斯克旗下Grok 4，问鼎冠军。同日恰逢OpenAI发布GPT-5，形成技术里程碑的“双冠加冕”。

关键逆转局：第四局中o3一度因误着陷入劣势，但凭借精准的残局处理能力，通过“兵升变后”完成绝杀，复刻半决赛100分战术评分的神级表现
。
Grok 4为何崩盘？决赛暴露其严重缺陷：首局白送象、次局误判棋子保护（12...Qxa2??）、第三局主动弃马（11.Nd5??），凸显中盘决策鲁莽与残局执行力薄弱
。马斯克赛前“象棋是副作用”的凡尔赛宣言，在溃败后未再回应
。
季军争夺战：谷歌Gemini 2.5 Pro以3胜1和力压OpenAI轻量版o4-mini，为东道主守住奖牌
。

中国代表队DeepSeek R1与Kimi K2首轮遭遇强敌，虽展现潜力但遗憾止步：

DeepSeek R1 vs o4-mini
- 开局惊艳：精准复现经典布局，前10步媲美职业棋手
  。
- 中盘崩盘：第11步后频现“战术幻觉”，如误判c2兵受威胁，白后走c3自陷困局，被o4-mini抓住机会连下四城
  。专家指出其全局视野断裂，无法维持多步连贯推理
  。
Kimi K2 vs o3
- 规则理解灾难：四局均因连续非法走法被判负，最短一局未超8步。例如试图用马“斜线吃后”，暴露非推理模型的适应性缺陷
  。网友为其鸣冤，认为长思考架构未获公平发挥
  。

尽管折戟，业界肯定中国模型开源价值：DeepSeek R1赛后开源棋谱分析接口，Kimi K2在开发者平台单周调用量破575亿tokens，显生态潜力。

技术启示：大模型的“棋局困局”与突破方向

赛事暴露当前通用AI在战略游戏中的共性缺陷，但也指明进化路径：

DeepMind团队总结：“国际象棋是检验涌现能力的沙盘，但当前LLM棋力仅相当于业余爱好者，远逊于AlphaZero等专业引擎。”

中国象棋AI发展启示：技术、规则与生态三重借鉴

本次赛事虽聚焦国际象棋，其赛制设计对中国象棋AI化具有重要参考价值：