「与 InfLLM 与 MoA 的两位作者一起聊注意力。注意“注意力”是为了可预见的长长长……文本。」
(题图:levelsio.com 上售卖的 Attention 鸭舌帽。)
本期图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》 (https://mp.weixin.qq.com/s/cByoldudiAuyUBaVhzrG3g)
上周,DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果,分别是 NSA、MoBA(GitHub) (https://github.com/MoonshotAI/MoBA)。他们都聚焦到了对大模型中的“注意力机制”的改进。
注意力机制是大语言模型(LLM)的核心机制。回到 2017 年 6 月那篇开启大语言模型革命的 Transformer 八子论文,标题就是:Attention Is All You Need(注意力就是你所需要的一切)。
而优化 Attention 的计算效率和效果,又能帮助解决,AI 学界和业界,都非常关心的一个问题,就是长文本,long context——不管是要一次输入一整本书,让模型能帮我们提炼、理解;还是在现在用强化学习来提升推理能力的范式转型后,需要生成长思维链;又或者是,我们未来希望模型有越来越长的“记忆”,这都需要长文本能力的支持。
这期节目,我们邀请了两位也做过 Attention 机制改进的 AI 研究者,一起聊 attention 它是什么,过去的瓶颈在哪儿,以及最新的 NSA、MoBA 这些成果带来了哪些启发;和未来注意力机制及更广泛的长文本能力提升上,有哪些趋势和方向。
本期嘉宾:
* 清华自然语言处理实验室的博士肖朝军,他是 InfLLM(GitHub) (https://github.com/thunlp/InfLLM)注意力机制改进的一作,导师是清华计算机系的刘知远。(Email:
[email protected])
* 清华 NICS-EFC 实验室的博士傅天予,他是 MoA(GitHub) (https://github.com/thu-nics/MoA)注意力机制改进的共同一作,导师是清华电子工程系的主任汪玉。汪老师的实验室也做了很多与硬件层结合的优化工作。(Email:
[email protected])
NICS-EFC 实验室最近也开源了一个与多模态注意力机制改进相关的成果 FrameFusion(GitHub) (https://github.com/thu-nics/FrameFusion)。
他们之前的成果都和 NSA、MoBA 一样属于“稀疏注意力”改进的范畴。
注意力机制是一个会涉及较多技术细节的话题。我在 shownotes 的末尾贴了一些术语和过往注意力优化成果的简单解释,希望可以帮大家更好得理解。
如果你虽然不是一个 AI 从业者,但又因为兴趣、好奇或工作需要,非常希望由浅入深得了解更具体的技术机制和进展。欢迎多听我们的节目,这次我也在 shownotes 里贴了一些 AI 大神用相对通俗方式讲解 AI 的视频节目的地址。
让我们一起学习起来!
不是每个人都需要或有精力去了解 AI 底层技术,但很多人都会被 AI 影响,都需要“智能思维”。
时间线跳转
- 注意力机制是什么 & 工作原理?
00:05 注意力机制是大语言模型的核心,优化注意力机制计算效率与效果对长文本处理至关重要
06:00 注意力机制本质是建立词与上下文的动态关联,解决传统 RNN 的遗忘问题
10:08 Transformer 原本的 Full Attention 通过存储所有词向量解决长文本遗忘,但面临存储与计算复杂度瓶颈
12:24 注意力机制 N 方复杂度导致显存与时间开销爆炸,稀疏化成为改进选择
15:25 稀疏注意力与线性注意力(RNN 思路)是注意力机制两大改进方向,各有优劣
16:27 之前稀疏注意力更主流,但 Mamba 之后,线性注意力也比较火
18:27 算法、系统、硬件三层优化共同提升效率,如 MoE 与生成范式革新也能帮助处理长文本
详解 NSA 与 MoBA:都是把稀疏注意力引入了训练阶段
21:06 动态稀疏效果更好但计算效率低,静态稀疏(如滑动窗口)更高效但效果受限
24:06 NSA 与 MoBA 聚焦预训练阶段稀疏化,解决训练与推理的机制差异
30:27 NSA 与 MoBA 均采用动态与静态混合策略,块状稀疏设计适配硬件特性
24:55 稀疏训练突破性能上限质疑,NSA 论文证明效果可超越稠密注意力
27:23 长思维链(CoT)与 RL 需求推动稀疏注意力落地训练阶段
36:50 块状稀疏设计(Block-Level)优化 GPU 并行与内存访问效率
42:06 NSA 实测推理加速显著,MoBA 强调保留关键注意力头提升长程关联
48:21 实验关注训练曲线稳定性与长 CoT 生成能力,而非传统 Benchmark
---两篇paper 中的训练曲线(Training Curve)的图示:
https://hv.z.wiki/autoupload/20250226/dn16/1006X608/MoBA_figure3.png
上图:MoBA 论文中的 Figure3
https://cdn.z.wiki/autoupload/20250226/3Plc/1594X1050/NSA_Figure4.png
上图:NSA 论文中的 Figure4
未来方向与 AGI 的终极想象
55:32 存储压缩与多模态长序列处理是下一阶段关键挑战
57:55 记忆架构需突破全存与固定存储的极端,探索类人动态决策机制
01:02:04 长文本能力支撑多模态推理(视频、科研)、情感记忆与知识服务
01:16:28 AGI 需具备科研能力突破知识边界,记忆与效率优化是底层支撑
01:22:03 自组织 AGI 可能颠覆人类对智能的定义,动机与伦理仍是未知领域
总结与预告
01:26:38 稀疏注意力解决存储与计算瓶颈,训练阶段改进适配 RL 与多模态需求
01:27:21 线性注意力(如 MiniMax 01)是另一重要方向,下期节目将深入探讨
相关链接
AI 视频科普视频推荐:1hr Talk Intro to Large Language Models (Andrej Karpathy) (https://www.youtube.com/watch?v=zjkBMFhNj_g)
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖 (https://mp.weixin.qq.com/s/mYVFIE61q4Hzv_d5iCw7PA)
晚点聊 102: DeepSeek 启动开源周,大模型开源到底在开什么? (https://www.xiaoyuzhoufm.com/episode/67bd286dfd2cbe6cd771675d?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
附录
(基本按本期播客中的出场顺序)
稀疏注意力:仅关注输入序列中部分关键位置的注意力机制,降低计算复杂度。
稠密 VS 稀疏:稠密指数据/计算全连接;稀疏指仅部分连接,效率更高。
稀疏计算:仅处理非零数据的计算方式,显存和算力需求更低。
稠密计算:处理所有数据的计算方式,计算量较大但精度高。
128k、1M 等:是在描述文本的长度,128k 就是 12.8 万。
显存:显卡存储空间,用于存放模型参数和计算中间结果。
算子:基础计算单元(如矩阵乘法),硬件加速优化的核心对象。
Sequence 序列:有序数据集合(如文本、语音),模型处理的基本单位。
RNN 循环神经网络:通过时序传递状态处理序列数据的神经网络架构。
梯度消失、梯度爆炸:反向传播中梯度指数级减小或增大,导致模型无法训练。
Token:文本的最小语义单元(如词、子词),模型输入的基本元素。
长文本:模型支持处理的超长输入序列(如数万token)。
BERT:由Google在2018年提出的基于双向Transformer的预训练语言模型。
Full Attention:标准注意力机制,计算所有位置间关系,复杂度O(N²)。
N方复杂度:计算量随序列长度N呈平方增长(如O(N²))。
Softmax:归一化函数,将向量映射为概率分布。
Softmax Attention:标准注意力实现,含Softmax计算相似度权重。
Attention Score:注意力权重,表示输入位置间相关性强度。
Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。
线性注意力:通过核函数近似实现线性复杂度的注意力机制。
Tri Dao、Albert Gu:两位 AI 研究者,其中 Tri Dao 是 FlashAttention 的作者,两位也都是 Mamba 的作者。
FlashAttention:由斯坦福大学在2022年提出的显存高效注意力算法,通过分块计算减少IO开销。
MoE 混合专家系统:动态路由至不同子模型提升容量的架构。
MLA:多层注意力机制,增强模型复杂模式捕获能力。
Mooncake:Kimi 和清华大学联合开发的大规模稀疏训练框架。
GitHub 库:代码托管平台,开源项目协作与版本管理工具。
预印本平台(arXiv):学术论文预发布平台,加速研究成果传播。
长思维链:扩展版思维链提示,通过长推理步骤提升模型表现。
Block:计算或数据的基本分块单位(如Transformer块)。
Triton:由OpenAI开发的GPU编程语言与编译器,支持高效自定义算子开发。
Decoding 阶段加速:减少生成式模型逐token输出的推理延迟。
Query:注意力机制中用于匹配Key的向量。
Training Curve:训练过程中指标(如损失)随迭代的变化曲线。
消融实验:逐步移除模型组件以验证其贡献的实验方法。
KV Compression:压缩注意力中的Key-Value缓存以节省显存
KV Eviction:淘汰不重要Key-Value,维持长上下文效率。(以上两个项目是在描述对多模态的注意力机制优化的以往相关成果时提及)
FrameFusion:视频多帧融合技术,提升时序建模效果。(讨论多模态注意力优化时,天予提到的清华 NICS-EFC 实验室最近开源的一个成果)
剪辑制作:甜食
本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png