中国 AI模型 Kimi的秘密武器是什么?


中国 AI 新创 Moonshot AI 旗下模型 Kimi 近日发布一篇技术报告,提出名为「Attention Residuals」的新架构,试图改写 Transformer 长期沿用的残差设计。报告发布后不久,Elon Musk 也在社群上表示「Impressive work from Kimi (Kimi 的作品令人印象深刻)」,让这项技术迅速受到关注。

中国 AI 模型 Kimi 将 attention 延伸到模型之间

这次 Kimi 的重点,其实是在处理 Transformer 里一个很核心、但很少被重新思考的机制:Residual Connection。自 ResNet 以来,大多数模型都是把每一层的输出「直接加回去」,而且权重都一样。这样做简单又稳定,但当模型变得很深时,问题也开始出现:前面累积的资讯会越来越多,新的讯号反而很难发挥作用,甚至会被淹没,让模型训练变得更困难。

Kimi 的做法,是把 attention 机制从原本用在「token 之间」,延伸到「模型层与层之间」。在 Attention Residuals 中,每一层不再平均接收所有过去层的资讯,而是透过 attention 去「选择」哪些层比较重要。也就是说,模型不再只是一直累加,而是会根据当下的输入,主动挑选有用的资讯来用。

Kimi 成功在不增加推论延迟下,提升 1.25 倍效率

但如果每一层都去看所有历史层,成本会太高。因此 Kimi 又提出一个折衷做法,叫做 Block Attention Residuals:先把模型切成几个区块,区块内维持原本的加总方式,但在区块之间才用 attention 做选择。这样既能保留「选择资讯」的能力,又能大幅降低记忆体和运算负担,实际上可以直接套用在现有模型上。

从结果来看,Kimi 在一个大型模型上,几乎没有增加推论延迟(不到 2%),却换来约 1.25 倍的效率提升,并且在多个测试指标上都有进步。这代表这种改法不只是理论漂亮,也具备实际落地的价值。过去 attention 解决的是「字与字之间的关系」,而 Kimi 进一步让模型开始思考「不同层之间该用哪些资讯」。

简单来说,模型不只是读资料,还开始学会怎么回头找自己过去算过的内容。

本文链接地址:https://www.wwsww.cn/rgzn/37838.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。