中国 AI模型 Kimi的秘密武器是什么？

中国 AI 新创 Moonshot AI 旗下模型 Kimi 近日发布一篇技术报告，提出名为「Attention Residuals」的新架构，试图改写 Transformer 长期沿用的残差设计。报告发布后不久，Elon Musk 也在社群上表示「Impressive work from Kimi (Kimi 的作品令人印象深刻)」，让这项技术迅速受到关注。

中国 AI 模型 Kimi 将 attention 延伸到模型之间

这次 Kimi 的重点，其实是在处理 Transformer 里一个很核心、但很少被重新思考的机制：Residual Connection。自 ResNet 以来，大多数模型都是把每一层的输出「直接加回去」，而且权重都一样。这样做简单又稳定，但当模型变得很深时，问题也开始出现：前面累积的资讯会越来越多，新的讯号反而很难发挥作用，甚至会被淹没，让模型训练变得更困难。

Kimi 的做法，是把 attention 机制从原本用在「token 之间」，延伸到「模型层与层之间」。在 Attention Residuals 中，每一层不再平均接收所有过去层的资讯，而是透过 attention 去「选择」哪些层比较重要。也就是说，模型不再只是一直累加，而是会根据当下的输入，主动挑选有用的资讯来用。

Kimi 成功在不增加推论延迟下，提升 1.25 倍效率

但如果每一层都去看所有历史层，成本会太高。因此 Kimi 又提出一个折衷做法，叫做 Block Attention Residuals：先把模型切成几个区块，区块内维持原本的加总方式，但在区块之间才用 attention 做选择。这样既能保留「选择资讯」的能力，又能大幅降低记忆体和运算负担，实际上可以直接套用在现有模型上。

从结果来看，Kimi 在一个大型模型上，几乎没有增加推论延迟（不到 2%），却换来约 1.25 倍的效率提升，并且在多个测试指标上都有进步。这代表这种改法不只是理论漂亮，也具备实际落地的价值。过去 attention 解决的是「字与字之间的关系」，而 Kimi 进一步让模型开始思考「不同层之间该用哪些资讯」。

简单来说，模型不只是读资料，还开始学会怎么回头找自己过去算过的内容。

本文链接地址：https://www.wwsww.cn/rgzn/37838.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

中国 AI 模型 Kimi 将 attention 延伸到模型之间

Kimi 成功在不增加推论延迟下，提升 1.25 倍效率

相关文章阅读