月之暗面唐飞虎：线性注意力与长文本大模型，让AI更懂你

2025-12-05 13:58

11月20日，由全球化媒体智库——霞光社ShineGlobal&霞光智库联合阿里云举办的「模型应用·编码新未来｜WAVE2025泛互联网全球大会」在上海成功举办。

在本次大会的主论坛上，月之暗面开发者关系负责人唐飞虎以《线性注意力与长文本大模型让AI更懂你》为题，进行了精彩演讲。

以下为详细内容，霞光社经整理发布。

唐飞虎：大家好，我是月之暗面的唐飞虎。我在月之暗面负责开发者关系，也做过一些模型对齐和infra方面的工作，之前参加过ACM/ICPC区域赛，目前也是trae expert，用过很多Vibe Coding的工具，我们也有一个开源项目叫Kimi CLI。

今天我们的分享主要围绕线性注意力机制来展开，因为我们最近刚放出一篇新的Paper叫Kimi Linear: An Expressive, Efficient Attention Architecture，也是一个混合线性注意力机制的模型。

在transformer模型当中起到一个什么样的作用？我们要回归最原始的论文attention is all you need。

原始的Transformer模型，在设计的时候非常适应那个时代硬件的架构，让计算更多的使用矩阵乘法从而更好的利用硬件低计算进行优化。随后Transformer模型现在成为了主流，又让很多硬件也会更好的去适配这个模型的特性，所以现在基本上所有你看到的主流大模型都是transformer的架构。

传统的transformer模型，使用的是一种SoftMax attention的一个机制，即标准注意力机制。模型在训练的时候会有QKV 3个矩阵，对这三个矩阵进行一些运算，先是得到一个attention矩阵，这里会调用一个softmax的操作，通过一组矩阵乘法得到一个output的矩阵，这个矩阵里面是最终每个token的概率分布。这样的机制主要瓶颈在于有两个平方级别的运算，训练过程当中这个就还好，因为毕竟是一次性的，在做decoding的时候，也需要一个平方级别的复杂度。虽然大家可能知道有一些方法，比方说是sliding window attention，flash attention，但主要还是常数优化，复杂度依然是N方级别的。

这个注意力机制在我们的transformer模型里面占到一个非常核心的位置，很多paper方向都是在如何去优化注意力机制，在保证性能的同时，让它的计算速度变得更快。

这里有非常多的技术架构的选择，像MiniMax，一开始也是尝试了Linear 混合注意力机制，最近又转向了full attention，可能之后还会转回来。像DeepSeek使用了sparse attention的机制。但不管是用何种attention，他们的目的都是在保证性能的情况下，让它的速度尽可能地快。

现在我们主要优化的瓶颈，是inference过程平方级别的复杂度。

这是因为前面的公式在计算的时候有一个矩阵乘法，来做这一步运算的时候会进行展开。随着你的context length的增长，很多计算都会成为瓶颈，最有代表性的就是推理的时长，如果大家使用一些长文本大模型的时候，当你的问题上下文越来越长的时候，会发现模型的推理速度会显著变慢。包括使用一些 vibe coding的工具，比如说使用claude code的时候我们一次性加载一个，有数百个文件的repo，这不仅会很慢，而且也会很贵。

这个情况下怎么办？有很多可选的办法。

第一，把Softmax干掉，直接干掉之后把它展开，公式会变成下面这个（图），公式被简化了很多。但这样是有问题的，比如说当推理的文本变得非常长的时候，前面的一些信息可能就被遗忘了，我们需要再设计一些机制来解决这个问题。通过这样的代数变换我们可以发现，虽然训练的时候复杂度还是平方，但是推理的计算的成本变成了线性，这是它最主要的优化，并且对Memory的消化变成了O1，所以kvcache的需求也不存在了，所以它还有很多其他的好处，指的是我们倾向于使用linear attention作为混合注意力里面我们的备选方案的原因。

当然，这些关于模型架构的系列和注意力机制相关的问题，其实你也可以直接拿去问 Kimi 大模型，它也能回答都很好。

既然线性注意力机制有这么多好处，那为什么它在现阶段还没有成为大模型的主流？现在你去看主流的大模型，DeepSeek 用的是 sparse attention，MiniMax 用的是 full attention，QWen使用的是 sliding window attention，各种各样的都有。之所以没有大规模采用线性注意力，是因为线性注意力在技术上目前仍然有很多困难需要克服。

回答这个问题，我们还是先看这一张图。图里可以看到两个非常明显的难点。

第一个难点，是在做 evaluation、做消融实验时，你会遇到大量的变量和参数，这些东西彼此影响，你需要逐个监控。这样就使得实验设计的难度非常大。

第二个难点，是现在依然缺乏一些必要的基建必要的 infrastructure。比如推理相关的库、工具链都还不够完善，导致线性注意力机制在很多场景里速度优势不明显，只有当你的推理文本长度足够长的时候，才会到达一个拐点，让线性注意力的优势真正显现出来。这两个问题目前都需要继续克服。

其中之一，我想给大家看关于AI下半场的一张图。这张图展示了最近几年大模型技术发展的突飞猛进。不仅各种新产品不断出现，而且每当一个新的 benchmark 出现，各家公司就会前赴后继地把分数刷上去。

有一些过去认为非常难的 benchmark，现在大家的得分都越来越高。例如右下角这个 Humanity’s Last Exam（人类最终考试），今年年初刚出的，当时得分只有个位数，写文章的时候也不到 20 分。而现在，用 Kimi K2 Thinking 模型已经能做到 40 多分，并且分数还在往上升。前天放出来的 Gemini 3 也在 40 多分的区间，比 K2 Thinking 稍微低一点，但也差不太多。可见，只要有一个好的 benchmark 出来，基本上大家都能把它刷到一个很高的水平。

关键问题是：怎么找到这样一个好的 benchmark？做物理实验时，我们都知道要控制变量，比如做压强实验，通常只有三个参数，这种情况下控制单变量非常容易。但做模型实验就完全不一样。模型里有非常多的参数，你控制了一个，其他地方就会出现连锁反应，牵一发而动全身。所以在这种情况下，实验非常难做，指标也非常难找准。

怎么去预测未来这个线性注意力机制未来会不会成为主流？这个是《新三国》里面最近很火的、诸葛孔明说的一句话：你现在预测未来，不如创造未来。

这是 Kimi 前端最近推出的一个 agent 产品，OK Computer。它把多个 tool use 的工具整合在一个系统里，不仅可以一次性制作 slide、搭建网页，还能写代码、完成一个工程项目，并交付结果。

像这样的 agent 系统，仅仅加载它所需要的工具，就需要非常长的上下文。如果我们做情感陪伴类的应用，随着你和用户的交互时间越来越长，上下文也会持续累积，这就需要长文本上下文的大模型才能支撑起这样的应用。

因此，未来随着开发者创建各类 agent 应用，这些 agent 在推理时需要足够长的上下文，开发者端对长文本大模型的要求会越来越高。这个时候，在模型侧具备一种能够支持更长文本上下文的创新注意力机制，就会变得非常必要。

Kimi 的 agent 实践主要分为几个阶段，最早去年的时候推出了 Kimi 探索版，最初可以在网页里进行多步调用；后来推出了 Kimi Deep Research（深度研究）。在今年 7 月，我们发布了 K2 model，在海内外获得了很多好评；9 月份推出了 OK Computer 这个 agent 系统；最近刚推出了一个 Kimi Linear 的模型，是开源的，目前也是最大在同类参数模型里面效果最好的Linear模型。

还有一个 K2 Thinking 的模型，打开 Kimi 智能助手可以直接启用一个 thinking 模式。这个 thinking 模式是 interleaved thinking，意味着在回答问题的过程中可以反复思考，反复抓取需要的信息。举例来说，像 DeepSeek R1 那类传统的 thinking 模型通常只会思考一轮，先做一大段内部思考然后给出结果；而我们的方式是在推理过程中不断推敲自己的答案。如果你问一个需要检索外部信息的问题，比如某部电影在某个时间之后获得了哪个奖，或是哪一省的代表队获得了某个团体冠军，就可能需要先在浏览器里获取信息，再基于这些信息进行进一步推理，interleaved thinking 的交付成功率会更高。

除了最早的 Kimi 探索版侧重自主规划并穷尽海量权威信息反复搜索之外，整个 agent 的发展趋势可以看到是从“被动思考”向“主动获取信息”的演进。

再到 Deep Research，调用的工具更多，不仅仅可以进行搜索。OK Computer 的能力更强，像 Kimi K2 在很多 Benchmark 上也取得了非常好的成绩。大家看到的 Humanity’s Last Exam，我们刚才提到过，当时得到的是 20 多分，在当时也属于第一梯队。现在在 thinking 模型上，它在 Benchmark 上的跑分也是最优秀的。

K2 模型的亮点主要在于：首先，其设计思路围绕 model as agent 的核心理念；其次，它具备很多 Agentic Tool Use 的功能。这也是包括Perplexity、Trae 这样的团队，第一时间上线 Kimi K2 模型的原因。用户可以在 Trae 平台中使用 Kimi K2 模型进行复杂的项目开发，采用 Trae Solo 模式进行开发。我们还使用了 MuonClip 优化器，使其在有限数据下能够更高效地利用数据，提高 token 的利用率。

我们在 GitHub 上有很多开源项目，其中之一是 K2 Vendor Verifier 项目。我们发现，K2 模型发布之后，很多供应商Tool Use的效果并不好，主要原因可能是一些开源社区在最初部署时使用了错误的版本，或者他们的开源方案中存在一些 bug，导致他们无法主动检测出这些问题。因此，我们提供了这样一个供大家自查的 Benchmark。这个 Benchmark 发布后，经过两个月，基本上主流的框架都已与我们的官方实现对齐，使用这些框架时也能获得非常接近的效果。

主流框架也第一时间支持了我们的 K2VV，现在同步率已达到 99.9%。一些用户反馈称，当在长文本上下文场景中使用 K2 模型时，经常需要重复查询同一个问题，这时就非常需要 KV Cache 机制。KV Cache 不仅能帮用户节省费用，也能节省计算时间。我们还发布了 Mooncake 方案，该方案获得了今年 Fast2025 Best Paper 奖。现在，许多开源社区和开源框架都支持这套缓存系统，基本上在很多开源框架中都可以享受到 KV Cache 带来的性能提升。K2 模型本身也是开源的，大家可以在 HuggingFace 上下载并研究。

除了我们自己的 agent 实践之外，还有很多第三方开发者也在进行 Kimi K2 的应用实践，例如 Vercel Genspark、YouWare 和前面提到的 Perplexity、Trae 等，像 Perplexity 也是最早做 AI+搜索的初创公司，也都在使用 Kimi K2 模型。

线性注意力机制的 Scaling 之路主要参考了两篇论文，其中一篇是在今年早期发布的优化器论文，里面已经分享了很多关于优化器的优化，这些技术也被应用在了 Kimi Linear 的论文中。

随着 Linear Attention 技术的日益成熟，我们希望未来用户可以开发出更多支持长文本的应用，从而为用户解锁更多能力。

声明：本文为维科号作者发布，不代表维科号立场。如有侵权或其他问题，请及时联系我们举报。