Grok 4.1三大技术亮点一次看

xAI 于11/17宣布，最新模型Grok 4.1 已正式向所有用户开放，包含grok.com、推特(X) 以及iOS、Android App。 xAI 表示，这次升级着重在「真实世界的可用性」，包括更强的情感理解、更自然的人格表现、更高的创作力与更低的幻觉率，同时保留之前Grok 4 的推理能力与稳定度。

秘密测试胜率近65%，Grok 4.1 确认全面上线

xAI 先在11/1 – 11/14 进行两周的秘密测试，把Grok 4.1 测试版以小比例导入Grok.com、X 与手机App 的真实流量，并透过「盲测比对」与上一版模型Grok 4 直接PK。

xAI 表示盲测时，Grok 4.1 在真实流量上的偏好指数为64.78%，明显胜过Grok 4，并宣布于11/17 正式向所有用户开放使用。也同时表示从现在起，所有用户都能使用Grok 4.1。只要用户开启Auto 模式，它会自动使用Grok 4.1，用户也可以在模型选单中自己选。

Grok 4.1 三大技术亮点一次看

Grok 4.1 技术亮点1：全新强化学习架构，让回覆更自然也更懂人

Grok 4.1 的核心升级来自于使用与Grok 4 相同的「大规模强化学习基础架构」，但这次进一步引入新的方法，让模型能在更大规模下自动优化回覆。而这次训练主要着重在不可验证的回覆品质，像是语气、人设一致性、情绪互动、理解意图等，这些都不是单靠资料就能直接评分的。

为了解决这个问题，xAI 使用了「前沿推理模型」作为奖励模型(Reward Model)，让这些具备深度推理能力的AI 来自动评估Grok 4.1 的回覆，并在大量的比较中自行学习什么是更好、更符合人类期待的回答，并且做调整。因此Grok 4.1 在语气、个性、情绪、互动自然度上明显提升，同时保持原本的推理能力与稳定性。

Grok 4.1技术亮点2：盲测评比全面登顶，情绪理解与创作力大幅升级

xAI 也公布多项实测结果，显示Grok 4.1 在多个能力测试上都有明显提升。

在LMArena 全球盲测对战平台中：
- Grok 4.1 Thinking 以1483 Elo排名世界第一。
- Grok 4.1 Non-Thinking 以1465 Elo排名第二，甚至超越其他模型的「完整推理模式」。
情绪理解测试(EQ-Bench 3)：采用45 个高难度情境与3 回合互动，由Claude Sonnet 3.7 评分。 Grok 4.1 在同理心、情绪洞察、人际理解等方面表现显著提升。
创意写作能力(Creative Writing v3)：在32 题× 3 回合的写作测试中，Grok 4.1 在创作风格、叙事品质、故事流畅度上都有更高分数，官方并展示多个样本回覆。

整体来看，Grok 4.1 不只在推理力提升，而是在「情感互动」与「创作能力」方面也有明显升级。

从图可得知，Grok 4.1 在推理模型综合排名、情绪理解与创意写作比较上，皆占前三名。

(注：Elo，意指 Grok 4.1 在全球盲测平台LMArena 上的战力分数，采用原本用于西洋棋的Elo 排名系统来评比模型回覆优劣。)

Grok 4.1技术亮点3： AI 幻觉下降3 倍，资讯来源更可靠

对于常见的资讯查询类问题，xAI 特别强调Grok 4.1 的幻觉率明显下降。先前Gork 的快速模式(Non-Reasoning) 原本容易因推理深度不足而出现幻觉，但在4.1 的后训练中，xAI 明确针对这问题进行改善。 xAI 的验证方式包括：

从用户在真实情况下问的、真正出现在平台上的问题，来进行抽样测试。
对照Grok 4.1 与旧版模型的回答差异。
评估在FActScore 上的表现。

结果显示，新版本在查询事实、回覆资讯性问题时，幻觉率明显下降，回答更稳定、更可信。使得Grok 4.1 在「快速答题」与「查资料」的场景中，比前代版本更实用、更精准。

从图可得知，Grok 4.1 的幻觉率从12.09% 下降至4.22%，下降约三倍。事实验证评分(FActScore) 也从9.89% 降到2.97%，表示Grok 4.1 准确度有大幅改善。

(注：FActScore 为由500 题真实人物传记问题组成的公开测试，用来检验模型在搜寻事实、判断正确性与回答一致性上的表现，可称作验证事实评分。)

本文链接地址：https://www.wwsww.cn/rgzn/35404.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

秘密测试胜率近65%，Grok 4.1 确认全面上线

Grok 4.1 三大技术亮点一次看

Grok 4.1 技术亮点1：全新强化学习架构，让回覆更自然也更懂人

Grok 4.1技术亮点2：盲测评比全面登顶，情绪理解与创作力大幅升级

Grok 4.1技术亮点3： AI 幻觉下降3 倍，资讯来源更可靠

相关文章阅读