Open app
Top Stations
Top Stations
1
More FM Auckland 91.8 FM
2
MSNBC
3
95 bFM
4
More FM Christchurch 92.1 FM
5
Beats Radio
6
BBC World Service
7
Newstalk ZB Auckland
8
Radio New Zealand National
9
The Sound
10
The Breeze Auckland
Top 100 Stations
Podcast
Top podcasts
1
The Mel Robbins Podcast
2
Blink | Jake Haendel's Story
3
SCAMMERLAND
4
The Rest Is History
5
Good Hang with Amy Poehler
6
The Diary Of A CEO with Steven Bartlett
7
Casefile True Crime
8
Levittown
9
ZM's Fletch, Vaughan & Hayley
10
Among The Missing
Show podcast categories
Live Sports
Live Sports streams
Now new and free: Live sports on radio.net.
UEFA Champions League
UEFA Europa League
Premier League
NFL
NBA
MLB
NHL
Show more
Near You
Genres
Popular Genres
Pop
Rock
Hip Hop
Chillout
Country
Oldies
Electro
Alternative
80s
Classical
House
Jazz
Top 40 & Charts
Soul
Classic Rock
Blues
Latin
90s
R'n'B
Urban
Ballads
Gothic
Punk
Hard Rock
Salsa
See all genres
Topics
Further Topics
News
Culture
Sports
Religion
Children
DJ
Comedy
Campus Radio
Interview
Christmas
Music
Education
See all topics
Podcasts
Business
晚点聊 LateTalk
Listen to 晚点聊 LateTalk in the App
(398)
(247,963)
Save favourites
Alarm
Sleep timer
Download for free in the App Store
Download for free in the Play Store
晚点聊 LateTalk
晚点 LatePost
add
《晚点聊 LateTalk》是《晚点 LatePost》出品的播客节目 由曼祺和汉洋主持 片言可以明百意,坐驰可以役万景
More
Business
News
Technology
Available Episodes
5 of 108
108: 与马毅聊智能史:“DNA是最早的大模型”,智能的本质是减熵
香港大学计算与数据科学学院院长,看 35 亿年智能史。欲知未来,先知过去。 这期是《晚点聊》的一个新系列 「LongContext」“长语境”的第 1 期。 封面:马毅上周五(3 月 14 日)在北大做分享(刚好是 π 日) 类似于现在的大模型需要 LongContext,我们去学习智能,也需要一个更全面的历史语境,让我们能在新东西不断涌现的此刻,找到一个更稳定的坐标。 在这个系列的开端,我邀请了香港大学计算与数据科学学院院长,马毅教授,来与我们聊智能和机器智能的历史。 马毅本科毕业于清华大学,2000 年在加州伯克利大学获得博士学位,先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大学,是人工智能和计算机视觉领域的全球知名学者。 最近 5 年,马毅自己关心的课题之一,就是智能的历史。为了在港大推动面向所有学科本科生的 AI 通识教育,他也在撰写教材、设计课程,对智能的发展做了更全面和深入浅出的整理。 马毅对智能有一些“少数派”的理解,比如本系列的名称「LongContext」——当作为一个技术概念时,马老师认为与其一味追逐预训练模式下的更长 LongContext,更好的方法是找到一种机制,能让智能系统有闭环的、长久的、不会遗忘的记忆。这些理解本身与他对智能史的梳理和认知有关。 智能是如何在地球上诞生的?马毅认为,生命就是智能的载体:从 DNA 出现,到神经系统诞生和寒武纪物种大爆发,再到人类的语言与数学的诞生,智能有不同的表现形式,但不变的是,智能都是在学习外部世界的知识与规律,从而进行预测,使知识可以为我所用。智能是在寻找规律并利用规律,是一个对抗宇宙熵增的过程。 从智能的历史,我们进一步聊了机器智能的历史:大部分人会把 1956 年的达特茅斯会议视为人工智能的开端,而马毅认为,对机器智能的研究,要追溯到 1940 年代的维纳的控制论、香农的信息论等更早的源头。从那时到现在的 80 多年里,机器智能发展几经起伏。马毅也分享了自己亲历的部分变化:比如他刚博士毕业时,找不到对口方向的教职;他现在被引用最多的成果,一度没有任何会议接受。 马毅也分享了一个研究者的技术品味如何形成?“品味”不仅是一种认知,也是认知被挑战时能继续坚持的自信。马毅的 taste,使他进入了一个目前在 AI 工业界眼中并不那么主流的方向:白盒大模型,和能实现“闭环、反馈、纠错”的机器智能。这两个方向在我们去年与马老师的访谈中有更详细的展开,具体内容可见《晚点聊》第 71 期节目。为加速这些方向的探索,马毅也创立了一家公司“忆生科技”。 本期涉及的人物、理论、技术成果、术语,见 Shownotes 文末附录。 本期嘉宾: 马毅,香港大学计算与数据科学学院院长 时间线: 00:13 开场总结 & LongContext 系列说明 智能的历史 04:58 DNA、神经系统、语言、数学,智能有四种机制;知识本身不是智能,而是智能活动的结果 19:06 大模型在四种机制中的阶段——类似靠 DNA 物竞天择的强化学习 24:53 智能在宇宙中诞生,也许是偶然中的必然;宇宙熵增(越来越混乱、随机),终有一天会无规律可学 机器智能的历史 29:02 AI 的起点不是达特茅斯会议 39:55 80 年机器智能史中的“闪耀时刻” 46:57 神经网络的起伏,本质是机制不明确,一些成果靠经验性试错 56:51 Open o1 和 DeepSeek-R1,它们真的在做“推理”吗? 01:08:06 “DeepSeek”们的出现,是一个 where and when 的问题,不是 if or not 的问题 技术 taste 的形成 01:11:21 探索未知的勇气和特立独行+严谨的学术培养 01:14:24 “做数学家,第一条是把自己训练成世界上最难说服的人” 01:18:53 在伯克利读博士时的氛围:自由跨组,学生互助 01:24:16 品味被挑战的时刻:现在被引用最多的成果,一度没有任何会议接收 01:27:58 没有接受系统教育的企业家、从业者,如何形成技术 taste? 港大 AI 通识教育实践 01:35:12 减少一门英语课,所有本科生增加一门 AI literacy:教授历史、技术概念、伦理;重要的是思维训练,而不是结论本身 01:45:50 机器降临派 or 人类堡垒派?——智能共存 白盒与闭环反馈纠错 01:52:15 闭环系统才能适应开放世界,具身是应用场景 01:54:05 VLA 端到端不一定是具身智能正确的解法,至少不是最高效的解法;人脑其实是一个并行结构 01:59:50 公司的意义,与学校要做的事形成互补 02:11:28 “我从不说 AGI”,不要笼统地理解智能 02:13:05 “焦虑就是来自不懂”,当 AI 的黑盒被利用,“迷信是这么产生的,权力也是这么产生的” 02:15:09 本期「连点成线」 相关链接: 晚点聊71:“如果相信只靠 Scailng Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能 (https://www.xiaoyuzhoufm.com/episode/6668d95ebb0f9563f6302495?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了” (https://mp.weixin.qq.com/s/YTLWgcsGds86lgW_druXBQ) 晚点聊106:与真格戴雨森长聊Agent:各行各业都会遭遇“李世石时刻”,Attention is not all you need (https://www.xiaoyuzhoufm.com/episode/67cdb53f7ccfd410926b0c66) 晚点聊103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 晚点聊101:与王小川聊AIX医疗:通向“生命科学的数学原理” (https://www.xiaoyuzhoufm.com/episode/67aaefa541b8e4a63c93c03d?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 附录: 诺伯特·维纳:控制论创始人,奠定AI与自动化理论基础。 图灵:计算机科学之父,提出图灵机与图灵测试,奠定AI理论基础。 冯·诺依曼架构:计算机体系结构基础,由冯·诺依曼于1945年提出,沿用至今。 达特茅斯会议:1956 年由麦卡锡、明斯基等人发起,首次定义“人工智能”。 Perceptron:感知机,Frank Rosenblatt于1957年提出的早期神经网络模型。 Yann Lecun:卷积神经网络先驱,2018年图灵奖得主,Meta首席AI科学家。 Geoffrey Hinton:深度学习先驱,反向传播算法(Back Propagation)联合提出者,2018年图灵奖得主。 李飞飞:斯坦福大学教授,ImageNet数据集发起人,推动计算机视觉发展。 卷积神经网络(CNN):Yann LeCun于1980年代末提出的深度学习模型,专用于图像识别。 AlexNet:2012年ImageNet竞赛冠军模型,由Hinton团队提出,推动深度学习复兴。 ResNet:微软2015年提出的残差网络,解决深层网络梯度消失问题。 VGG:牛津大学2014年提出的深度卷积网络,以结构简单高效著称。 ImageNet:李飞飞团队2009年发起的图像数据集,推动AI算法发展。 李泽湘:机器人技术专家,马毅在伯克利博士期间的师兄;他们的导师是 Shankar Sastry。 陶哲轩:数学家,研究涵盖机器学习理论,推动AI与数学交叉领域发展。 SFT Memorizes, RL Generalizes (https://tianzhechu.com/SFTvsRL/):(港大、UC Berkely、Google DeepMind、NYU 2025 年合作发表的论文),是本期中讨论提升模型推理时,SFT(监督微调)和 RL(强化学习)的相关但不同角色的那篇论文。 监督微调(Supervised Fine Tuning):基于标注数据调整预训练模型,适配特定任务。 强化学习(Reinforcement Learning):通过奖励机制优化策略,适用于动态决策任务。 伯克利 BAIR:加州大学伯克利分校人工智能研究所,成立于2016年,聚焦机器人、强化学习等前沿领域。 VLA:Vision-Language-Action Model 视觉-语言-动作模型,Google DeepMind 2023 年提出的一种让智能体在物理或数字环境中执行复杂任务的模型,应用于机器人、自动驾驶等领域 播客中提到的两位遭遇学生生涯挫折的诺贝尔奖得住:一位是 2024 年生理学或医学奖得主 Victor Ambros,曾未能获得哈佛大学终身教职;一位是 2023 年生理学或医学奖得主 Katalin Karikó,曾被宾夕法尼亚大学降级降薪。 剪辑制作:Nick 本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
--------
2:18:18
107: 与Haivivi李勇聊月入千万的AI Jellycat:小众AI硬件×大众消费品的交叉口创业
「佩奇她弟教你“量子纠缠”。」(封面中,小猴子身上挂的 Bubble Pal 是 Haivivi 的第一款产品。) 本期,Haivivi 创始人兼 CEO 李勇讲述了 AI 玩具创业故事。 李勇是一个消费硬件行业的 20 年从业者和连续创业者:曾参与天猫精灵从 0 到三千万台的全过程,后负责爱奇艺孵化的 AR/VR 产品,独立创业后,做早教机一度销量突破数十万台,后不得不在双减等政策变化中寻找新方向。 AI 玩具符合李勇寻找创业方向的逻辑:做科技巨头做不了或不会做的方向。 这是一个 AI 硬件中的小众领域,却是消费品里的大市场:泡泡玛特和 Jellycat 的持续增长都显示了玩具、玩偶类产品的巨大需求:它们不仅是送给孩子的好伙伴,也成为跨年龄阶段的陪伴者,是白领“打工人”或收藏癖的“小确幸”。 3 年前创业,1 年半前开始进入 AI 毛绒玩具市场的 Haivivi,目前仍针对 3-6 岁的幼儿市场,做成年人的“AI 朋友”是他们的未来拓展目标之一。 Haivivi 的第一款产品是去年夏天面世的 Bubble Pal——一个可以挂在任何毛绒伙伴上的 AI 泡泡,让毛绒玩具能开口陪孩子聊天、说话,用小猪佩奇的世界观讲量子力学,家庭关系。 上市几个月内,单价 399 元的 Bubble Pal 就卖出几万个,单月收入破千万元人民币。 *本期播客录制时间在今年春节前,“明年”“今年”“去年”的称呼分别主要指 2025、2024 和 2023 年。 本期嘉宾: Haivivi 创始人 & CEO 李勇,曾在锤子手机、天猫精灵、爱奇艺等公司工作过,2021 年开始此次创业。 时间线: - 产品思考:一个“AI+儿童+毛绒+硬件+情绪价值”的产品窄门 02:06 产品演示 04:22经历回顾:天猫精灵野心很大,但最多的交互来自孩子 10:02早教机品类固然好,但竞争不过大公司 12:36大模型来了,但又不够好,让大模型跟毛绒玩具结合,能控制用户预期 13:24全球毛绒玩具增速很快,所以一定要做毛绒玩具品类 15:03PMF思考:为什么做3-6岁? 16:55先做挂件产品形态的思考:做好毛绒玩具存量市场,同时先活下来 - 大模型+硬件,能给所有人提供情绪价值吗? 19:11毛绒形态是情绪价值提供的最优解,别的品类说话有些诡异,需要教育市场 21:55如果泡泡玛特也会说话呢?在 AI 之外,还要考虑更长的链条 23:43在情绪价值赛道,理性推演很难 24:15成年人跟一个玩具聊天会不会很傻?不会,AI 也能给成年人提供情绪价值,但要找对场景 25:27硬件有付费成本,给用户的价值要大于用户付出的成本 - 做巨头做不了,也不想做的生意 27:55排名第一第二的差评,本质来自硬件设计的取舍,以及产品破圈之后,要接受非科技爱好者的“审判” 31:18家长可以设计 prompt,让玩具成为小孩子的“个人助手” 32:27不做严肃教育,因为大模型现阶段的能力并不能做严肃教育 33:40创业公司不适合做 AI+教育,因为无法和有更多资源的教育巨头竞争 34:20而玩具方向大厂不会做,不想做也做不好 35:19提供情绪价值的玩具赛道,可以同时容纳非常多公司;而工具类往往是生死厮杀 37:49玩具公司多以儿童用户切入,但真正的收入来自给成年人的产品 39:50大模型技术的迭代,比如端到端语音模型的推出,可以帮助实现更好的用户体验 - 负债创业,而硬件本身又充满取舍 43:12负债创业时刻:调整方向、团队降薪、PPT 融资 44:45与高秉强老师相见恨晚,他也主张儿童+硬件+AI 46:29高老师也赞同不做教育,“孩子上了高中、大学,会有我这样的老师讲给他们听” 47:27产品设计中的种种取舍:先做什么、做哪个国家、纽扣还是挂件、硅胶还是毛绒、多大的麦克风…… 52:31还没投流就卖爆了,终于有个 AI 产品能离生活近一些了 55:00聊 AI 眼镜:没想到是 Meta 现跑出来,舍弃显示太有魄力了 58:09国内一定会有很多人开始做 Haivivi 类似的产品,但李勇觉得这很正常,还是要多关注自己的迭代 - 过于乐观的 AI 从业者,现在想做玩具总动员 01:03:31一些理工男不能理解的产品设计,但每一个细节都很重要 01:05:40从技术角度去做儿童产品的价值观设计,比成年人的更复杂 01:11:13对大模型过于乐观 01:13:31接入了主流的模型,也接入了 DeepSeek,但 DeepSeek 的意义更多在长期 01:15:01想做的事情很多,但是并不想让团队快速扩张 01:18:26太多科幻电影太过黑暗,Haivivi 想做 AI 版的玩具总动员。 相关链接: Jellycat 如何将 vibe 注入商品?丨晚点周末 (https://mp.weixin.qq.com/s/BnO2tOhI3Ak9v3-lmS2p1A) 晚点独家丨AI 眼镜之战,数笔新融资进行时 (https://mp.weixin.qq.com/s/mqjaW81PBXyvBQVhNkuobg) 剪辑制作:甜食 本期主播:即刻 @王与桐 (https://okjk.co/UmgW69) https://cdn.z.wiki/autoupload/20250313/tAbq/2062X376/%E4%B8%8E%E6%A1%90-shownotes_%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
--------
1:19:39
106: 与真格戴雨森长聊 Agent:各行业都会遭遇“李世石时刻”,Attention is not all you need
「两瓶茅台的价格体验未来,很划算(Devin 最低月订阅费 500 美元)」 2 月下旬,我与真格基金管理合伙人戴雨森长聊了一次 AI。 上周,真格投资的 Monica 发布的 Agent 产品 Manus,虽然还在内测阶段,就引起了大量关注。在聊这期时,雨森提到了 Monica 即将会发布一款 Agent 产品,那时候我们还不知道 Manus 将会席卷社交媒体。 当我们把一个任务交给 Manus,过了十几分钟收到完成的结果时,似乎真的感受到了一点 attention is not all you need 的未来。 带来这些变化的起点,是去年至今的两个重要节点:o1 和 R1。它们分别带来了两个对 AI 全行业的影响: 一是 o1 在大语言模型中引入强化学习,开启 Pretraining(预训练)Scaling Laws 之外的 Post-training(后训练)和 test-time-computing(即推理阶段的计算)阶段的新 Scaling Laws,让模型推理能力大幅提升。我们之前在第 80 期节目中也有详细讨论 o1,当时业界还普遍猜测 o1 用到了蒙特卡洛树搜索等方法。 二是与 o1 同为推理模型的 DeepSeek R1 强势开源,以极低的成本,和后续引发的巨大全民影响力,让很多人重估了大模型行业当前的最重要课题:提升模型能力。R1 的开源和同期发布了详细技术报告另一个推理模型的 Kimi-k1.5 ,也明确告诉整个领域,一些方向是“此路不通”,他们都没有使用蒙特卡洛树搜索等方法。 这期节目,我们从 o1 和 R1 开始聊,二者一同带来的推理能力的提升、成本的下降,和同期模型编程能力与工具使用能力的提升,开启了 Agent 在 2025 年的应用前景。 雨森详细分享了他对 Agent 机会的当前观察,以及在 DeepSeek 带来的开源生态的变化中,大小 AI 公司的新动作和调整。 本期嘉宾: 戴雨森:真格基金管理合伙人,投资了 Kimi(月之暗面)、与爱为舞、无问芯穹、Genspark 等 AI 项目。 时间线: - OpenAI o系列与 DeepSeek R 系列的启发 01:36 o1 证明 RL(强化学习)在后训练阶段和推理时间的 Scaling Law 潜力,为 Agent 产品形态奠定基础 04:24 DeepSeek-R1 启发:开源+RL+专注的胜利;本土年轻团队的力量;技术提升带来魔法体验,涌现商业模式 - 详聊 AI Agent 14:25 3 个能力提升带来 Agent 爆发机会:推理+编程+工具使用;凡是 RL 进入的领域,往往导致人类迅速超过人类,“我把这叫李世石时刻” 18:11 Attention is not all you need,“工作的 Scaling Law”:从“注意力经济”到“无需注意力”的范式转变,Agent 帮你干活 34:07 Agent 产品形态推演:从写(分析类)到读(操作),到 Agent 指挥 Agent 干活(多 Agent 协同);一个例子:Manus 为了获得凤凰城地铁时刻表,在找不到公开信息的情况下给相关部门写邮件。 45:44 Agent 机会属于谁?模型公司自己做,还是应用公司? 53:02 Agent 成本:成本下降、速度变快是必然;200 美元一个月的 ChatGPT-pro,500 美金一个月的Devin,两瓶茅台的价格体验未来,很划算 - 开源带来的格局重塑 58:18 DeepSeek 强势开源下:字节与腾讯的不同动作 01:10:39 DeepSeek 长期的商业价值? 01:14:53 开源并非必选项 01:19:39 阿里的节奏:开源、开放 01:28:34 对六小虎:DeepSeek 的“清场效应”;对更多应用公司,加速从“黑莓时代”到“iPhone”时代 01:35:45 对算力需求:总需求变大没争议,但算力结构的变化可能导致英伟达市值调整 - 为更快到来的 AGI 的未雨绸缪 01:44:59 一生中见证多次指数增长,历史罕见 01:51:32 希望 AI 普惠,但也有可能走向反面 01:54:40 戴雨森个人为 AGI 做的准备 02:04:01 最近的阅读推荐:A Brief History of Intelligence(作者:Max Bennet)、《第一只眼》(作者:Andrew Parker) 相关链接: 3 位连续创业者打造 Manus,应用潮里有更多 “underdog” 的机会(文末附 Manus、Open Manus 实测) (https://mp.weixin.qq.com/s/QXPx7efrGK2Y6msGTqAFlQ) 晚点聊 99:MiniMax创始人闫俊杰:做大模型,千万别套用移动互联网的逻辑 (https://www.xiaoyuzhoufm.com/episode/678daf93cabd7f95693c8d6c?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 晚点聊 100:硅谷怎么看 DeepSeek?与 FusionFund 创始人张璐聊开源、Agent 和除了 AI (https://www.xiaoyuzhoufm.com/episode/6799dea77c3a804d89fd93f2) 晚点聊 102:DeepSeek 启动开源周,大模型开源到底在开什么? (https://www.xiaoyuzhoufm.com/episode/67bd286dfd2cbe6cd771675d) 晚点聊 103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 附录(本期中提及的一些 AI 产品): Devin:由 Cognition 开发的自动化编程助手 Agent。 DeepResearch:OpenAI 2025 年 2月发布的为智能研究 Agent,支持深度信息检索与报告生成。 Manus:本期中提及的 Monica.im 当时即将发布的 Agent 产品,支持多任务自主执行。 ComputerUse:Anthropic 2024 年 11 月发布的通用计算机助手 Agent,允许 AI 操作计算机完成任务。 Cursor:由 Cursor 团队开发的 AI 编程助手。 Perplexity:由Perplexity AI 开发的 AI 搜索引擎,能提供深度搜索、信息整合和答案生成。 剪辑制作:甜食 本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
--------
2:11:50
105: 潞晨尤洋争议中谈三方云平台 DeepSeek 成本:为何我不做 MaaS 了?
「我们的测试是,通过 MaaS 获得收入,代价太高了」 上周六,DeepSeek 发布开源周收官之作:概述了 DeepSeek 的推理优化思路,并放出了 2 月 27 日前后一个 24 小时时段内的线上时机测试。 据 DeepSeek 官方数据,这 24 小时里,他们处理的 Token 输入总量是 608B(6080 亿);输出的 token 量是 168B(1680 亿)。每秒每节点(一节点有 8 张 H800)的吞吐量达到了输入 73.7k Tokens,输出 14.8k Tokens。 https://cdn.z.wiki/autoupload/20250306/rk6W/884X858/%E6%88%AA%E5%B1%8F2025-03-06_20.14.24.png 做到这么大的吞吐量,他们平均只用了 226.75 个节点,每个节点是 8 张英伟达 H800,加起来是 1814 张卡。而这支撑了 DeepSeek 高达 2000万-3000 万的日活。 由此 DeepSeek 也根据 GPU 的市场价格,和自己的 API 定价,算了一个成本利润率,即这几天被广泛传播和讨论的 545%,换算成毛利是 84.5%。 这也让前段时间算过另一笔账,且结果大相径庭的的潞晨科技创始人尤洋的言论被推到了风口浪尖。 尤洋曾说,通过自己的实测,他发现中小云平台现在部署 DeepSeek,再售卖 API 给其它应用方,是巨亏的生意,月亏可达 4 亿。 亏损的核心是,尤洋自己测的吞吐量与 DeepSeek 公布的数据相差巨大(每节点每秒输出位 300 Tokens 左右)。由于 GPU 的价格在一定时间内是固定的,吞吐量,就决定了 API 服务能否赚钱。 在“被打脸”的争议中,尤洋接受了「晚点聊」的访谈。我们聊的时间是 3 月 1 日,尤洋没有特别提及 DeepSeek 的具体推理优化,他称自己不方便评价。 他更多聊了,为什么他认为中小云平台做 MaaS 服务不赚钱,也解释了他眼中的 MaaS 商业模式。他认为单纯卖 API 的 MaaS 可能更合适大型云厂商和自己开发独家模型,并能做相应深度优化的公司。 3 月 1 日,潞晨科技也宣布停止即将包括 DeepSeek API 在内的 MaaS 服务。 如果听友想更详细的了解,考虑到运维、折旧等成本的 DeepSeek 实际利润率怎么测算,可以看 Shownotes “附录”里贴的几篇相关链接,有非常详细的解读,并搭配了公式和图表。 本期嘉宾: 尤洋,潞晨科技创始人 时间线跳转: 00:04 DeepSeek 官方实测数据,惊人的吞吐量带来惊人利润率 03:10 尤洋此前的测算引发争议与讨论:亏损 4 亿 vs 毛利 85% 09:25 一个合格 to B MaaS 服务,冗余资源到底该备需求的几倍? 12:26 潞晨科技已不再做 MaaS 服务,MaaS 买的是 GPU 时间,卖的是 Token 调用,承担了链条上的最多亏损 17:57 专注给大小公司部署私有模型 22:15 强模型公司(如 OpenAI)和大型云厂商自己做 MaaS 更合理 26:22 高额利润才能带来创新投入,价格战会导致大家都没资源投入研发 28:20 实际服务中,输入、输出序列的波动,用户请求的多样化,会导致线上服务效率下降 34:28 云计算也是高弹性,AI 云平台不会成为新的云计算吗? 38:17 潞晨想做 AI 版 Databricks,而 Databricks 自己也在做这件事;创业公司的空间在哪儿? 43:00 新方向是自己训练视频生成模型,在热潮前的 2021 年 9 月开始创业的方向选择 46:37 技术和商业问题可以广开讨论,不打算再回应其他争议 相关链接: 再次深度拆解:Deepseek利润率高达85%,推理效率领先一个数量级,彻底颠覆认知!(老罗的暗中观察) (https://mp.weixin.qq.com/s/AxzY9QQ2Ea49CazUfNwT2A) 回应争议:Deepseek真实利润率是多少?到底需要多少算力? (https://mp.weixin.qq.com/s/rpuTnottr6x49NY7o76AkA) 光年之外联创再出发,与袁进辉聊 AI Infra 到底做什么? (https://www.xiaoyuzhoufm.com/episode/65b19c9bc2bedd4be809a48a) 剪辑制作:甜食 本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
--------
48:55
104: 我给线性注意力找“金主”,字节 say No,MiniMax say Yes
「继续来聊“注意力”,不止技术,也有研发故事。」 (本期因录音 bug,音质有波动;不时出现“变声期”,请见谅。) 上期,我们与清华的两位博士生,肖朝军和傅天予,聊了稀疏注意力机制的改进,也以注意力为线索,串起了大模型的优化史 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)。上期主要聊了稀疏注意力。 这期,我们来聊注意力机制的另一大改进方向:线性注意力。 MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01,01 就用到了他们开发的线性注意力机制,lightning attention。 本期,我邀请了这个项目的负责人,MiniMax 高级研究总监,负责 01 模型网络架构的钟怡然,来与我们一起聊研究线性注意力的研发过程。 钟怡然曾担任上海人工智能实验室青年科学家,是新架构探索组的 PI,也就是项目负责人;他在澳洲国立大学获得博士学位,师从李宏东教授和 Richard Hartley 院士。 在 2021 年,线性注意力还是一个“看起来很美好的泡泡”,怡然和团队就开始探索线性架构的实现。 当 2024 年年中,MiniMax 开始用大量算力资源训练线性架构的 4560 亿参数的新一代模型 01 时,线性架构能在大规模模型上 work 是非共识。但闫俊杰最后拍板,投了公司超过 80% 的研发资源。 当然,训练模型不是戏剧性的梭哈。在训 01 前,MiniMax 团队通过 3700 次预训练测试,去预测这种新架构在更大参数的模型是否也有好的表现。(这其中不少都是小规模实验。)这期节目,我们完整聊了这个过程。 在效率上线上,从计算方法推导,当序列非常长,线性注意力在计算效率上的的优势会越来越大于稀疏注意力。但从效果上,也就是线性注意力的模型,能否和 Transformer 模型一样聪明,甚至更聪明。现在还没有谁能给出有绝对说服力的答案。 这也是之后 MiniMax 的技术进展,可能会揭晓的悬念。 本期嘉宾: 钟怡然,MiniMax 高级研发总监 时间线跳转: - MiniMax 开源:为什么第一个模型选了 01 05:46 开源是为了展示架构创新,吸引更多人才 08:20 开源后社区反馈集中在推理效率与多模态支持,MiniMax 把推理优化贡献到了开源框架 vLLM 中 10:20 开源要有影响力需要更多工作,MiniMax-01 当前开源版本参数过大,个人开发者确实参与受限 - MiniMax-01 中的线性注意力改进:7 混 1 结构,100 万 Token 序列长度下提速 2700 倍 13:11 线性注意力的核心思想是通过调整QKV矩阵计算顺序,将复杂度从二次降至线性 15:26 稀疏注意力(如NSA、Mobile)在小模型表现尚可,但线性注意力在参数规模扩大后优势显著 20:23 纯线性注意力在召回能力(如“大海捞针”任务)上存在缺陷,团队通过混合架构(每 7 层线性注意力加入 1 层 Softmax 注意力)优化 27:31 混合架构在 100 万 Token 序列长度下实现 2700 倍加速,同时模型效果优于纯 Transformer 28:27 3700 次小模型实验验证架构可扩展性,扩大规模前要做充分验证 - 21 年开始的线性架构研发之旅:从“美好的泡泡”到 4560 亿参数大模型 30:24 2021 年开始做线性注意力研发时,它还是一个“美好的泡泡” 35:19 “我们是最懂线性注意力的人”,为什么这个模型不诞生在我们手上? 41:20 50% 的把握,投 80% 的资源 42:46 上规模后,发现了召回缺陷;一张大表,3700 个预训练任务 50:46 一个测试例子:MiniMax-01、DeepSeek-R1 表现不及 Kimi-k1.5,可能和数据构造有关 52:52 线性架构也许是更适合推理模型的架构 01:00:51 线性架构能 work,仍是非共识 - “道心”之争 01:02:00 钟怡然坚信线性注意力是“无损优化”,混合架构效果甚至优于传统Transformer 01:11:23 MiniMax计划4月发布深度推理多模态模型,整合线性架构、原生多模态与强化学习 01:22:18 AGI愿景 vs 竞争驱动:DeepSeek 爆火后,但不改变产品是技术最大的证明 相关链接: 103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 99:MiniMax创始人闫俊杰:做大模型,千万别套用移动互联网的逻辑 (https://www.xiaoyuzhoufm.com/episode/678daf93cabd7f95693c8d6c?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 71:“如果相信只靠 Scailng Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能 (https://www.xiaoyuzhoufm.com/episode/6668d95ebb0f9563f6302495?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 101:与王小川聊AIX医疗:通向“生命科学的数学原理” (https://www.xiaoyuzhoufm.com/episode/67aaefa541b8e4a63c93c03d?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 103 期晚点聊图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》 (https://mp.weixin.qq.com/s/cByoldudiAuyUBaVhzrG3g) 附录: QKV 计算:Query-Key-Value计算,注意力机制中用于生成上下文感知向量的核心步骤。 Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。 Jamba:由 AI21 Labs 在 2024 年提出的结合 Mamba 与 Transformer 的混合架构模型。 vLLM:由加州大学伯克利分校在 2023 年提出的开源大模型推理加速框架。 有损优化:以牺牲部分模型性能为代价换取计算效率或资源节省的优化方法。 无损优化:在不影响模型性能的前提下提升计算效率或资源利用率的优化策略。 (另,更多关于线性注意力机制的术语也可见上期注释) 剪辑制作:Nick 本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
--------
1:26:50
Show more
More Business podcasts
Money Made Simple
Business, Investing, Education, Self-Improvement
The Curve
Business, Investing
Girls That Invest
Business, Investing, Education
Garys Economics
Business
Making Cents
Business, Investing, Education, Tutorials
The Property Academy Podcast
Business, Investing
The Prof G Pod with Scott Galloway
Business, Entrepreneurship
The Diary Of A CEO with Steven Bartlett
Business, Society & Culture, Education
A Bit of Optimism
Business, Careers, Education, Self-Improvement
Shared Lunch
Business, Investing
Trending Business podcasts
Unhedged
Business, Investing, News, Business News
Bored To Boss
Business, Entrepreneurship
Projectified
Business, Careers, Education
It's No Secret
Business, Investing, Education, Self-Improvement
The Memo by Howard Marks
Business, Investing
The Payoff - A KiwiSaver Podcast
Business, Investing
Morning Brew Daily
Business, News, Business News
The Agents of Change Digital Marketing Podcast
Business, Marketing
Speaking With Confidence
Business, Management, Education, Self-Improvement
Straight Talk with Mark Bouris
Business, Careers, Education
Invest Like the Best with Patrick O'Shaughnessy
Business, Investing, Technology
NBR Podcasts
Business
On Point
Business, Investing
Tom Bilyeu's Impact Theory
Business, News, News Commentary, Society & Culture, Philosophy
ACQ2 by Acquired
Business, Entrepreneurship, Business, Investing
Māori Millionaire Podcast
Business, Investing, Education, Self-Improvement
The Prosperity Project
Business
Your Money Guide on the Side
Business, Investing
Business Daily
Business
一人公司丨商业人物故事
Business, Careers, Education, Self-Improvement
Raoul Pal: The Journey Man
Business, Investing
Elon, Inc.
Business, News, Tech News
Your Money With Mary Holm
Business
Money Stuff: The Podcast
Business, News, Society & Culture
Your Wealth
Business, Investing
Ones and Tooze
Business, News, Business News, History
Get Rich Slow Club
Business, Investing, Education, Tutorials, Education, Self-Improvement
Founders
Business, Entrepreneurship, History, Technology
Leaders Getting Coffee with Bruce Cotterill
Business
Markets with Madison
Business
About 晚点聊 LateTalk
《晚点聊 LateTalk》是《晚点 LatePost》出品的播客节目 由曼祺和汉洋主持 片言可以明百意,坐驰可以役万景
Podcast website
Listen to 晚点聊 LateTalk, Money Made Simple and many other podcasts from around the world with the radio.net app
Get the free radio.net app
Stations and podcasts to bookmark
Stream via Wi-Fi or Bluetooth
Supports Carplay & Android Auto
Many other app features
Open app
Get the free radio.net app
Stations and podcasts to bookmark
Stream via Wi-Fi or Bluetooth
Supports Carplay & Android Auto
Many other app features
晚点聊 LateTalk
Scan code,
download the app,
start listening.
The podcast starts in
- 0 sec.
Company
About radio.net
Press
Advertise with us
Broadcast with us
Legal
Terms of use
Privacy Policy
Legal notice
Privacy-Manager
Service
Contact
Apps
Help / FAQ
Apps
iPhone
iPad
Android
Social
New Zealand
v7.11.0
| © 2007-2025 radio.de GmbH
Generated: 3/24/2025 - 1:02:47 PM