Powered by RND
PodcastsBusiness晚点聊 LateTalk
Listen to 晚点聊 LateTalk in the App
Listen to 晚点聊 LateTalk in the App
(398)(247,963)
Save favourites
Alarm
Sleep timer

晚点聊 LateTalk

Podcast 晚点聊 LateTalk
晚点 LatePost
《晚点聊 LateTalk》是《晚点 LatePost》出品的播客节目 由曼祺和汉洋主持 片言可以明百意,坐驰可以役万景

Available Episodes

5 of 107
  • 107: 与Haivivi李勇聊月入千万的AI Jellycat:小众AI硬件×大众消费品的交叉口创业
    「佩奇她弟教你“量子纠缠”。」(封面中,小猴子身上挂的 Bubble Pal 是 Haivivi 的第一款产品。) 本期,Haivivi 创始人兼 CEO 李勇讲述了 AI 玩具创业故事。 李勇是一个消费硬件行业的 20 年从业者和连续创业者:曾参与天猫精灵从 0 到三千万台的全过程,后负责爱奇艺孵化的 AR/VR 产品,独立创业后,做早教机一度销量突破数十万台,后不得不在双减等政策变化中寻找新方向。 AI 玩具符合李勇寻找创业方向的逻辑:做科技巨头做不了或不会做的方向。 这是一个 AI 硬件中的小众领域,却是消费品里的大市场:泡泡玛特和 Jellycat 的持续增长都显示了玩具、玩偶类产品的巨大需求:它们不仅是送给孩子的好伙伴,也成为跨年龄阶段的陪伴者,是白领“打工人”或收藏癖的“小确幸”。 3 年前创业,1 年半前开始进入 AI 毛绒玩具市场的 Haivivi,目前仍针对 3-6 岁的幼儿市场,做成年人的“AI 朋友”是他们的未来拓展目标之一。 Haivivi 的第一款产品是去年夏天面世的 Bubble Pal——一个可以挂在任何毛绒伙伴上的 AI 泡泡,让毛绒玩具能开口陪孩子聊天、说话,用小猪佩奇的世界观讲量子力学,家庭关系。 上市几个月内,单价 399 元的 Bubble Pal 就卖出几万个,单月收入破千万元人民币。 *本期播客录制时间在今年春节前,“明年”“今年”“去年”的称呼分别主要指 2025、2024 和 2023 年。 本期嘉宾: Haivivi 创始人 & CEO 李勇,曾在锤子手机、天猫精灵、爱奇艺等公司工作过,2021 年开始此次创业。 时间线: - 产品思考:一个“AI+儿童+毛绒+硬件+情绪价值”的产品窄门 02:06 产品演示 04:22经历回顾:天猫精灵野心很大,但最多的交互来自孩子 10:02早教机品类固然好,但竞争不过大公司 12:36大模型来了,但又不够好,让大模型跟毛绒玩具结合,能控制用户预期 13:24全球毛绒玩具增速很快,所以一定要做毛绒玩具品类 15:03PMF思考:为什么做3-6岁? 16:55先做挂件产品形态的思考:做好毛绒玩具存量市场,同时先活下来 - 大模型+硬件,能给所有人提供情绪价值吗? 19:11毛绒形态是情绪价值提供的最优解,别的品类说话有些诡异,需要教育市场 21:55如果泡泡玛特也会说话呢?在 AI 之外,还要考虑更长的链条 23:43在情绪价值赛道,理性推演很难 24:15成年人跟一个玩具聊天会不会很傻?不会,AI 也能给成年人提供情绪价值,但要找对场景 25:27硬件有付费成本,给用户的价值要大于用户付出的成本 - 做巨头做不了,也不想做的生意 27:55排名第一第二的差评,本质来自硬件设计的取舍,以及产品破圈之后,要接受非科技爱好者的“审判” 31:18家长可以设计 prompt,让玩具成为小孩子的“个人助手” 32:27不做严肃教育,因为大模型现阶段的能力并不能做严肃教育 33:40创业公司不适合做 AI+教育,因为无法和有更多资源的教育巨头竞争 34:20而玩具方向大厂不会做,不想做也做不好 35:19提供情绪价值的玩具赛道,可以同时容纳非常多公司;而工具类往往是生死厮杀 37:49玩具公司多以儿童用户切入,但真正的收入来自给成年人的产品 39:50大模型技术的迭代,比如端到端语音模型的推出,可以帮助实现更好的用户体验 - 负债创业,而硬件本身又充满取舍 43:12负债创业时刻:调整方向、团队降薪、PPT 融资 44:45与高秉强老师相见恨晚,他也主张儿童+硬件+AI 46:29高老师也赞同不做教育,“孩子上了高中、大学,会有我这样的老师讲给他们听” 47:27产品设计中的种种取舍:先做什么、做哪个国家、纽扣还是挂件、硅胶还是毛绒、多大的麦克风…… 52:31还没投流就卖爆了,终于有个 AI 产品能离生活近一些了 55:00聊 AI 眼镜:没想到是 Meta 现跑出来,舍弃显示太有魄力了 58:09国内一定会有很多人开始做 Haivivi 类似的产品,但李勇觉得这很正常,还是要多关注自己的迭代 - 过于乐观的 AI 从业者,现在想做玩具总动员 01:03:31一些理工男不能理解的产品设计,但每一个细节都很重要 01:05:40从技术角度去做儿童产品的价值观设计,比成年人的更复杂 01:11:13对大模型过于乐观 01:13:31接入了主流的模型,也接入了 DeepSeek,但 DeepSeek 的意义更多在长期 01:15:01想做的事情很多,但是并不想让团队快速扩张 01:18:26太多科幻电影太过黑暗,Haivivi 想做 AI 版的玩具总动员。 相关链接: Jellycat 如何将 vibe 注入商品?丨晚点周末 (https://mp.weixin.qq.com/s/BnO2tOhI3Ak9v3-lmS2p1A) 晚点独家丨AI 眼镜之战,数笔新融资进行时 (https://mp.weixin.qq.com/s/mqjaW81PBXyvBQVhNkuobg) 剪辑制作:甜食 本期主播:即刻 @王与桐 (https://okjk.co/UmgW69) https://cdn.z.wiki/autoupload/20250313/tAbq/2062X376/%E4%B8%8E%E6%A1%90-shownotes_%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
    --------  
    1:19:39
  • 106: 与真格戴雨森长聊 Agent:各行业都会遭遇“李世石时刻”,Attention is not all you need
    「两瓶茅台的价格体验未来,很划算(Devin 最低月订阅费 500 美元)」 2 月下旬,我与真格基金管理合伙人戴雨森长聊了一次 AI。 上周,真格投资的 Monica 发布的 Agent 产品 Manus,虽然还在内测阶段,就引起了大量关注。在聊这期时,雨森提到了 Monica 即将会发布一款 Agent 产品,那时候我们还不知道 Manus 将会席卷社交媒体。 当我们把一个任务交给 Manus,过了十几分钟收到完成的结果时,似乎真的感受到了一点 attention is not all you need 的未来。 带来这些变化的起点,是去年至今的两个重要节点:o1 和 R1。它们分别带来了两个对 AI 全行业的影响: 一是 o1 在大语言模型中引入强化学习,开启 Pretraining(预训练)Scaling Laws 之外的 Post-training(后训练)和 test-time-computing(即推理阶段的计算)阶段的新 Scaling Laws,让模型推理能力大幅提升。我们之前在第 80 期节目中也有详细讨论 o1,当时业界还普遍猜测 o1 用到了蒙特卡洛树搜索等方法。 二是与 o1 同为推理模型的 DeepSeek R1 强势开源,以极低的成本,和后续引发的巨大全民影响力,让很多人重估了大模型行业当前的最重要课题:提升模型能力。R1 的开源和同期发布了详细技术报告另一个推理模型的 Kimi-k1.5 ,也明确告诉整个领域,一些方向是“此路不通”,他们都没有使用蒙特卡洛树搜索等方法。 这期节目,我们从 o1 和 R1 开始聊,二者一同带来的推理能力的提升、成本的下降,和同期模型编程能力与工具使用能力的提升,开启了 Agent 在 2025 年的应用前景。 雨森详细分享了他对 Agent 机会的当前观察,以及在 DeepSeek 带来的开源生态的变化中,大小 AI 公司的新动作和调整。 本期嘉宾: 戴雨森:真格基金管理合伙人,投资了 Kimi(月之暗面)、与爱为舞、无问芯穹、Genspark 等 AI 项目。 时间线: - OpenAI o系列与 DeepSeek R 系列的启发 01:36 o1 证明 RL(强化学习)在后训练阶段和推理时间的 Scaling Law 潜力,为 Agent 产品形态奠定基础 04:24 DeepSeek-R1 启发:开源+RL+专注的胜利;本土年轻团队的力量;技术提升带来魔法体验,涌现商业模式 - 详聊 AI Agent 14:25 3 个能力提升带来 Agent 爆发机会:推理+编程+工具使用;凡是 RL 进入的领域,往往导致人类迅速超过人类,“我把这叫李世石时刻” 18:11 Attention is not all you need,“工作的 Scaling Law”:从“注意力经济”到“无需注意力”的范式转变,Agent 帮你干活 34:07 Agent 产品形态推演:从写(分析类)到读(操作),到 Agent 指挥 Agent 干活(多 Agent 协同);一个例子:Manus 为了获得凤凰城地铁时刻表,在找不到公开信息的情况下给相关部门写邮件。 45:44 Agent 机会属于谁?模型公司自己做,还是应用公司? 53:02 Agent 成本:成本下降、速度变快是必然;200 美元一个月的 ChatGPT-pro,500 美金一个月的Devin,两瓶茅台的价格体验未来,很划算 - 开源带来的格局重塑 58:18 DeepSeek 强势开源下:字节与腾讯的不同动作 01:10:39 DeepSeek 长期的商业价值? 01:14:53 开源并非必选项 01:19:39 阿里的节奏:开源、开放 01:28:34 对六小虎:DeepSeek 的“清场效应”;对更多应用公司,加速从“黑莓时代”到“iPhone”时代 01:35:45 对算力需求:总需求变大没争议,但算力结构的变化可能导致英伟达市值调整 - 为更快到来的 AGI 的未雨绸缪 01:44:59 一生中见证多次指数增长,历史罕见 01:51:32 希望 AI 普惠,但也有可能走向反面 01:54:40 戴雨森个人为 AGI 做的准备 02:04:01 最近的阅读推荐:A Brief History of Intelligence(作者:Max Bennet)、《第一只眼》(作者:Andrew Parker) 相关链接: 3 位连续创业者打造 Manus,应用潮里有更多 “underdog” 的机会(文末附 Manus、Open Manus 实测) (https://mp.weixin.qq.com/s/QXPx7efrGK2Y6msGTqAFlQ) 晚点聊 99:MiniMax创始人闫俊杰:做大模型,千万别套用移动互联网的逻辑 (https://www.xiaoyuzhoufm.com/episode/678daf93cabd7f95693c8d6c?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 晚点聊 100:硅谷怎么看 DeepSeek?与 FusionFund 创始人张璐聊开源、Agent 和除了 AI (https://www.xiaoyuzhoufm.com/episode/6799dea77c3a804d89fd93f2) 晚点聊 102:DeepSeek 启动开源周,大模型开源到底在开什么? (https://www.xiaoyuzhoufm.com/episode/67bd286dfd2cbe6cd771675d) 晚点聊 103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 附录(本期中提及的一些 AI 产品): Devin:由 Cognition 开发的自动化编程助手 Agent。 DeepResearch:OpenAI 2025 年 2月发布的为智能研究 Agent,支持深度信息检索与报告生成。 Manus:本期中提及的 Monica.im 当时即将发布的 Agent 产品,支持多任务自主执行。 ComputerUse:Anthropic 2024 年 11 月发布的通用计算机助手 Agent,允许 AI 操作计算机完成任务。 Cursor:由 Cursor 团队开发的 AI 编程助手。 Perplexity:由Perplexity AI 开发的 AI 搜索引擎,能提供深度搜索、信息整合和答案生成。 剪辑制作:甜食 本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
    --------  
    2:11:50
  • 105: 潞晨尤洋争议中谈三方云平台 DeepSeek 成本:为何我不做 MaaS 了?
    「我们的测试是,通过 MaaS 获得收入,代价太高了」 上周六,DeepSeek 发布开源周收官之作:概述了 DeepSeek 的推理优化思路,并放出了 2 月 27 日前后一个 24 小时时段内的线上时机测试。 据 DeepSeek 官方数据,这 24 小时里,他们处理的 Token 输入总量是 608B(6080 亿);输出的 token 量是 168B(1680 亿)。每秒每节点(一节点有 8 张 H800)的吞吐量达到了输入 73.7k Tokens,输出 14.8k Tokens。 https://cdn.z.wiki/autoupload/20250306/rk6W/884X858/%E6%88%AA%E5%B1%8F2025-03-06_20.14.24.png 做到这么大的吞吐量,他们平均只用了 226.75 个节点,每个节点是 8 张英伟达 H800,加起来是 1814 张卡。而这支撑了 DeepSeek 高达 2000万-3000 万的日活。 由此 DeepSeek 也根据 GPU 的市场价格,和自己的 API 定价,算了一个成本利润率,即这几天被广泛传播和讨论的 545%,换算成毛利是 84.5%。 这也让前段时间算过另一笔账,且结果大相径庭的的潞晨科技创始人尤洋的言论被推到了风口浪尖。 尤洋曾说,通过自己的实测,他发现中小云平台现在部署 DeepSeek,再售卖 API 给其它应用方,是巨亏的生意,月亏可达 4 亿。 亏损的核心是,尤洋自己测的吞吐量与 DeepSeek 公布的数据相差巨大(每节点每秒输出位 300 Tokens 左右)。由于 GPU 的价格在一定时间内是固定的,吞吐量,就决定了 API 服务能否赚钱。 在“被打脸”的争议中,尤洋接受了「晚点聊」的访谈。我们聊的时间是 3 月 1 日,尤洋没有特别提及 DeepSeek 的具体推理优化,他称自己不方便评价。 他更多聊了,为什么他认为中小云平台做 MaaS 服务不赚钱,也解释了他眼中的 MaaS 商业模式。他认为单纯卖 API 的 MaaS 可能更合适大型云厂商和自己开发独家模型,并能做相应深度优化的公司。 3 月 1 日,潞晨科技也宣布停止即将包括 DeepSeek API 在内的 MaaS 服务。 如果听友想更详细的了解,考虑到运维、折旧等成本的 DeepSeek 实际利润率怎么测算,可以看 Shownotes “附录”里贴的几篇相关链接,有非常详细的解读,并搭配了公式和图表。 本期嘉宾: 尤洋,潞晨科技创始人 时间线跳转: 00:04 DeepSeek 官方实测数据,惊人的吞吐量带来惊人利润率 03:10 尤洋此前的测算引发争议与讨论:亏损 4 亿 vs 毛利 85% 09:25 一个合格 to B MaaS 服务,冗余资源到底该备需求的几倍? 12:26 潞晨科技已不再做 MaaS 服务,MaaS 买的是 GPU 时间,卖的是 Token 调用,承担了链条上的最多亏损 17:57 专注给大小公司部署私有模型 22:15 强模型公司(如 OpenAI)和大型云厂商自己做 MaaS 更合理 26:22 高额利润才能带来创新投入,价格战会导致大家都没资源投入研发 28:20 实际服务中,输入、输出序列的波动,用户请求的多样化,会导致线上服务效率下降 34:28 云计算也是高弹性,AI 云平台不会成为新的云计算吗? 38:17 潞晨想做 AI 版 Databricks,而 Databricks 自己也在做这件事;创业公司的空间在哪儿? 43:00 新方向是自己训练视频生成模型,在热潮前的 2021 年 9 月开始创业的方向选择 46:37 技术和商业问题可以广开讨论,不打算再回应其他争议 相关链接: 再次深度拆解:Deepseek利润率高达85%,推理效率领先一个数量级,彻底颠覆认知!(老罗的暗中观察) (https://mp.weixin.qq.com/s/AxzY9QQ2Ea49CazUfNwT2A) 回应争议:Deepseek真实利润率是多少?到底需要多少算力? (https://mp.weixin.qq.com/s/rpuTnottr6x49NY7o76AkA) 光年之外联创再出发,与袁进辉聊 AI Infra 到底做什么? (https://www.xiaoyuzhoufm.com/episode/65b19c9bc2bedd4be809a48a) 剪辑制作:甜食 本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
    --------  
    48:55
  • 104: 我给线性注意力找“金主”,字节 say No,MiniMax say Yes
    「继续来聊“注意力”,不止技术,也有研发故事。」 (本期因录音 bug,音质有波动;不时出现“变声期”,请见谅。) 上期,我们与清华的两位博士生,肖朝军和傅天予,聊了稀疏注意力机制的改进,也以注意力为线索,串起了大模型的优化史 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)。上期主要聊了稀疏注意力。 这期,我们来聊注意力机制的另一大改进方向:线性注意力。 MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01,01 就用到了他们开发的线性注意力机制,lightning attention。 本期,我邀请了这个项目的负责人,MiniMax 高级研究总监,负责 01 模型网络架构的钟怡然,来与我们一起聊研究线性注意力的研发过程。 钟怡然曾担任上海人工智能实验室青年科学家,是新架构探索组的 PI,也就是项目负责人;他在澳洲国立大学获得博士学位,师从李宏东教授和 Richard Hartley 院士。 在 2021 年,线性注意力还是一个“看起来很美好的泡泡”,怡然和团队就开始探索线性架构的实现。 当 2024 年年中,MiniMax 开始用大量算力资源训练线性架构的 4560 亿参数的新一代模型 01 时,线性架构能在大规模模型上 work 是非共识。但闫俊杰最后拍板,投了公司超过 80% 的研发资源。 当然,训练模型不是戏剧性的梭哈。在训 01 前,MiniMax 团队通过 3700 次预训练测试,去预测这种新架构在更大参数的模型是否也有好的表现。(这其中不少都是小规模实验。)这期节目,我们完整聊了这个过程。 在效率上线上,从计算方法推导,当序列非常长,线性注意力在计算效率上的的优势会越来越大于稀疏注意力。但从效果上,也就是线性注意力的模型,能否和 Transformer 模型一样聪明,甚至更聪明。现在还没有谁能给出有绝对说服力的答案。 这也是之后 MiniMax 的技术进展,可能会揭晓的悬念。 本期嘉宾: 钟怡然,MiniMax 高级研发总监 时间线跳转: - MiniMax 开源:为什么第一个模型选了 01 05:46 开源是为了展示架构创新,吸引更多人才 08:20 开源后社区反馈集中在推理效率与多模态支持,MiniMax 把推理优化贡献到了开源框架 vLLM 中 10:20 开源要有影响力需要更多工作,MiniMax-01 当前开源版本参数过大,个人开发者确实参与受限 - MiniMax-01 中的线性注意力改进:7 混 1 结构,100 万 Token 序列长度下提速 2700 倍 13:11 线性注意力的核心思想是通过调整QKV矩阵计算顺序,将复杂度从二次降至线性 15:26 稀疏注意力(如NSA、Mobile)在小模型表现尚可,但线性注意力在参数规模扩大后优势显著 20:23 纯线性注意力在召回能力(如“大海捞针”任务)上存在缺陷,团队通过混合架构(每 7 层线性注意力加入 1 层 Softmax 注意力)优化 27:31 混合架构在 100 万 Token 序列长度下实现 2700 倍加速,同时模型效果优于纯 Transformer 28:27 3700 次小模型实验验证架构可扩展性,扩大规模前要做充分验证 - 21 年开始的线性架构研发之旅:从“美好的泡泡”到 4560 亿参数大模型 30:24 2021 年开始做线性注意力研发时,它还是一个“美好的泡泡” 35:19 “我们是最懂线性注意力的人”,为什么这个模型不诞生在我们手上? 41:20 50% 的把握,投 80% 的资源 42:46 上规模后,发现了召回缺陷;一张大表,3700 个预训练任务 50:46 一个测试例子:MiniMax-01、DeepSeek-R1 表现不及 Kimi-k1.5,可能和数据构造有关 52:52 线性架构也许是更适合推理模型的架构 01:00:51 线性架构能 work,仍是非共识 - “道心”之争 01:02:00 钟怡然坚信线性注意力是“无损优化”,混合架构效果甚至优于传统Transformer 01:11:23 MiniMax计划4月发布深度推理多模态模型,整合线性架构、原生多模态与强化学习 01:22:18 AGI愿景 vs 竞争驱动:DeepSeek 爆火后,但不改变产品是技术最大的证明 相关链接: 103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 99:MiniMax创始人闫俊杰:做大模型,千万别套用移动互联网的逻辑 (https://www.xiaoyuzhoufm.com/episode/678daf93cabd7f95693c8d6c?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 71:“如果相信只靠 Scailng Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能 (https://www.xiaoyuzhoufm.com/episode/6668d95ebb0f9563f6302495?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 101:与王小川聊AIX医疗:通向“生命科学的数学原理” (https://www.xiaoyuzhoufm.com/episode/67aaefa541b8e4a63c93c03d?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 103 期晚点聊图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》 (https://mp.weixin.qq.com/s/cByoldudiAuyUBaVhzrG3g) 附录: QKV 计算:Query-Key-Value计算,注意力机制中用于生成上下文感知向量的核心步骤。 Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。 Jamba:由 AI21 Labs 在 2024 年提出的结合 Mamba 与 Transformer 的混合架构模型。 vLLM:由加州大学伯克利分校在 2023 年提出的开源大模型推理加速框架。 有损优化:以牺牲部分模型性能为代价换取计算效率或资源节省的优化方法。 无损优化:在不影响模型性能的前提下提升计算效率或资源利用率的优化策略。 (另,更多关于线性注意力机制的术语也可见上期注释) 剪辑制作:Nick 本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
    --------  
    1:26:50
  • 103: 用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进
    「与 InfLLM 与 MoA 的两位作者一起聊注意力。注意“注意力”是为了可预见的长长长……文本。」 (题图:levelsio.com 上售卖的 Attention 鸭舌帽。) 本期图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》 (https://mp.weixin.qq.com/s/cByoldudiAuyUBaVhzrG3g) 上周,DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果,分别是 NSA、MoBA(GitHub) (https://github.com/MoonshotAI/MoBA)。他们都聚焦到了对大模型中的“注意力机制”的改进。 注意力机制是大语言模型(LLM)的核心机制。回到 2017 年 6 月那篇开启大语言模型革命的 Transformer 八子论文,标题就是:Attention Is All You Need(注意力就是你所需要的一切)。 而优化 Attention 的计算效率和效果,又能帮助解决,AI 学界和业界,都非常关心的一个问题,就是长文本,long context——不管是要一次输入一整本书,让模型能帮我们提炼、理解;还是在现在用强化学习来提升推理能力的范式转型后,需要生成长思维链;又或者是,我们未来希望模型有越来越长的“记忆”,这都需要长文本能力的支持。 这期节目,我们邀请了两位也做过 Attention 机制改进的 AI 研究者,一起聊 attention 它是什么,过去的瓶颈在哪儿,以及最新的 NSA、MoBA 这些成果带来了哪些启发;和未来注意力机制及更广泛的长文本能力提升上,有哪些趋势和方向。 本期嘉宾: * 清华自然语言处理实验室的博士肖朝军,他是 InfLLM(GitHub) (https://github.com/thunlp/InfLLM)注意力机制改进的一作,导师是清华计算机系的刘知远。(Email:[email protected]) * 清华 NICS-EFC 实验室的博士傅天予,他是 MoA(GitHub) (https://github.com/thu-nics/MoA)注意力机制改进的共同一作,导师是清华电子工程系的主任汪玉。汪老师的实验室也做了很多与硬件层结合的优化工作。(Email:[email protected]) NICS-EFC 实验室最近也开源了一个与多模态注意力机制改进相关的成果 FrameFusion(GitHub) (https://github.com/thu-nics/FrameFusion)。 他们之前的成果都和 NSA、MoBA 一样属于“稀疏注意力”改进的范畴。 注意力机制是一个会涉及较多技术细节的话题。我在 shownotes 的末尾贴了一些术语和过往注意力优化成果的简单解释,希望可以帮大家更好得理解。 如果你虽然不是一个 AI 从业者,但又因为兴趣、好奇或工作需要,非常希望由浅入深得了解更具体的技术机制和进展。欢迎多听我们的节目,这次我也在 shownotes 里贴了一些 AI 大神用相对通俗方式讲解 AI 的视频节目的地址。 让我们一起学习起来! 不是每个人都需要或有精力去了解 AI 底层技术,但很多人都会被 AI 影响,都需要“智能思维”。 时间线跳转 - 注意力机制是什么 & 工作原理? 00:05 注意力机制是大语言模型的核心,优化注意力机制计算效率与效果对长文本处理至关重要 06:00 注意力机制本质是建立词与上下文的动态关联,解决传统 RNN 的遗忘问题 10:08 Transformer 原本的 Full Attention 通过存储所有词向量解决长文本遗忘,但面临存储与计算复杂度瓶颈 12:24 注意力机制 N 方复杂度导致显存与时间开销爆炸,稀疏化成为改进选择 15:25 稀疏注意力与线性注意力(RNN 思路)是注意力机制两大改进方向,各有优劣 16:27 之前稀疏注意力更主流,但 Mamba 之后,线性注意力也比较火 18:27 算法、系统、硬件三层优化共同提升效率,如 MoE 与生成范式革新也能帮助处理长文本 详解 NSA 与 MoBA:都是把稀疏注意力引入了训练阶段 21:06 动态稀疏效果更好但计算效率低,静态稀疏(如滑动窗口)更高效但效果受限 24:06 NSA 与 MoBA 聚焦预训练阶段稀疏化,解决训练与推理的机制差异 30:27 NSA 与 MoBA 均采用动态与静态混合策略,块状稀疏设计适配硬件特性 24:55 稀疏训练突破性能上限质疑,NSA 论文证明效果可超越稠密注意力 27:23 长思维链(CoT)与 RL 需求推动稀疏注意力落地训练阶段 36:50 块状稀疏设计(Block-Level)优化 GPU 并行与内存访问效率 42:06 NSA 实测推理加速显著,MoBA 强调保留关键注意力头提升长程关联 48:21 实验关注训练曲线稳定性与长 CoT 生成能力,而非传统 Benchmark ---两篇paper 中的训练曲线(Training Curve)的图示: https://hv.z.wiki/autoupload/20250226/dn16/1006X608/MoBA_figure3.png 上图:MoBA 论文中的 Figure3 https://cdn.z.wiki/autoupload/20250226/3Plc/1594X1050/NSA_Figure4.png 上图:NSA 论文中的 Figure4 未来方向与 AGI 的终极想象 55:32 存储压缩与多模态长序列处理是下一阶段关键挑战 57:55 记忆架构需突破全存与固定存储的极端,探索类人动态决策机制 01:02:04 长文本能力支撑多模态推理(视频、科研)、情感记忆与知识服务 01:16:28 AGI 需具备科研能力突破知识边界,记忆与效率优化是底层支撑 01:22:03 自组织 AGI 可能颠覆人类对智能的定义,动机与伦理仍是未知领域 总结与预告 01:26:38 稀疏注意力解决存储与计算瓶颈,训练阶段改进适配 RL 与多模态需求 01:27:21 线性注意力(如 MiniMax 01)是另一重要方向,下期节目将深入探讨 相关链接 AI 视频科普视频推荐:1hr Talk Intro to Large Language Models (Andrej Karpathy) (https://www.youtube.com/watch?v=zjkBMFhNj_g) 月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖 (https://mp.weixin.qq.com/s/mYVFIE61q4Hzv_d5iCw7PA) 晚点聊 102: DeepSeek 启动开源周,大模型开源到底在开什么? (https://www.xiaoyuzhoufm.com/episode/67bd286dfd2cbe6cd771675d?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 附录 (基本按本期播客中的出场顺序) 稀疏注意力:仅关注输入序列中部分关键位置的注意力机制,降低计算复杂度。 稠密 VS 稀疏:稠密指数据/计算全连接;稀疏指仅部分连接,效率更高。 稀疏计算:仅处理非零数据的计算方式,显存和算力需求更低。 稠密计算:处理所有数据的计算方式,计算量较大但精度高。 128k、1M 等:是在描述文本的长度,128k 就是 12.8 万。 显存:显卡存储空间,用于存放模型参数和计算中间结果。 算子:基础计算单元(如矩阵乘法),硬件加速优化的核心对象。 Sequence 序列:有序数据集合(如文本、语音),模型处理的基本单位。 RNN 循环神经网络:通过时序传递状态处理序列数据的神经网络架构。 梯度消失、梯度爆炸:反向传播中梯度指数级减小或增大,导致模型无法训练。 Token:文本的最小语义单元(如词、子词),模型输入的基本元素。 长文本:模型支持处理的超长输入序列(如数万token)。 BERT:由Google在2018年提出的基于双向Transformer的预训练语言模型。 Full Attention:标准注意力机制,计算所有位置间关系,复杂度O(N²)。 N方复杂度:计算量随序列长度N呈平方增长(如O(N²))。 Softmax:归一化函数,将向量映射为概率分布。 Softmax Attention:标准注意力实现,含Softmax计算相似度权重。 Attention Score:注意力权重,表示输入位置间相关性强度。 Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。 线性注意力:通过核函数近似实现线性复杂度的注意力机制。 Tri Dao、Albert Gu:两位 AI 研究者,其中 Tri Dao 是 FlashAttention 的作者,两位也都是 Mamba 的作者。 FlashAttention:由斯坦福大学在2022年提出的显存高效注意力算法,通过分块计算减少IO开销。 MoE 混合专家系统:动态路由至不同子模型提升容量的架构。 MLA:多层注意力机制,增强模型复杂模式捕获能力。 Mooncake:Kimi 和清华大学联合开发的大规模稀疏训练框架。 GitHub 库:代码托管平台,开源项目协作与版本管理工具。 预印本平台(arXiv):学术论文预发布平台,加速研究成果传播。 长思维链:扩展版思维链提示,通过长推理步骤提升模型表现。 Block:计算或数据的基本分块单位(如Transformer块)。 Triton:由OpenAI开发的GPU编程语言与编译器,支持高效自定义算子开发。 Decoding 阶段加速:减少生成式模型逐token输出的推理延迟。 Query:注意力机制中用于匹配Key的向量。 Training Curve:训练过程中指标(如损失)随迭代的变化曲线。 消融实验:逐步移除模型组件以验证其贡献的实验方法。 KV Compression:压缩注意力中的Key-Value缓存以节省显存 KV Eviction:淘汰不重要Key-Value,维持长上下文效率。(以上两个项目是在描述对多模态的注意力机制优化的以往相关成果时提及) FrameFusion:视频多帧融合技术,提升时序建模效果。(讨论多模态注意力优化时,天予提到的清华 NICS-EFC 实验室最近开源的一个成果) 剪辑制作:甜食 本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
    --------  
    1:28:15

More Business podcasts

About 晚点聊 LateTalk

《晚点聊 LateTalk》是《晚点 LatePost》出品的播客节目 由曼祺和汉洋主持 片言可以明百意,坐驰可以役万景
Podcast website

Listen to 晚点聊 LateTalk, The Prosperity Project and many other podcasts from around the world with the radio.net app

Get the free radio.net app

  • Stations and podcasts to bookmark
  • Stream via Wi-Fi or Bluetooth
  • Supports Carplay & Android Auto
  • Many other app features
Social
v7.11.0 | © 2007-2025 radio.de GmbH
Generated: 3/13/2025 - 4:55:27 PM