想让AI更聪明,为什么它有时反而会“学傻”?本期节目,我们将一起揭开AI训练中“差不多”哲学的代价,并探索如何为所有大模型打造一副省钱又省力的“万能骨架”。我们还会看到,有时只需给机器人加一点“噪声”,或者校准一下它看世界的“眼镜”,就能让它从新手秒变老司机。最后,我们将见证一个奇迹:如何让机器人看懂我们天马行空的“梦境”,将想象力直接翻译成物理世界的行动。00:00:35 驯服AI这匹野马,问题出在了“差不多”上00:07:43 给机器人加点“噪声”,它就变聪明了?这事没那么简单00:14:08 怎么让机器人听懂你的想象力?00:19:18 AI大模型们的“万能骨架”:省钱省力的秘密00:23:03 机器人换个角度就犯傻?问题可能出在你没想到的地方本期介绍的几篇论文:[CL] Stabilizing Reinforcement Learning with LLMs: Formulation and Practices[Qwen Team, Alibaba Inc.]https://arxiv.org/abs/2512.01374---[RO] Much Ado About Noising: Dispelling the Myths of Generative Robotic Control[CMU]https://arxiv.org/abs/2512.01809---[RO] From Generated Human Videos to Physically Plausible Robot Trajectories[UC Berkeley & Johannes Kepler University]https://arxiv.org/abs/2512.05094---[LG] The Universal Weight Subspace Hypothesis[Johns Hopkins University]https://arxiv.org/abs/2512.05117---[RO] VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling[Sun Yat-sen University]https://arxiv.org/abs/2512.02902
--------
28:57
--------
28:57
[人人能懂] 从量体裁衣、幻觉检测到精心设计的极化
今天我们不只关心AI有多强,而是要探索一些更深刻的问题。我们会看到,最适合汽车的AI,恰恰不是那个最强的“云端大脑”;我们会拿到一个“测谎仪”,去分辨AI何时在“一本正经地胡说八道”。接着,我们会用一张最残酷的考卷,揭示AI在“知识搬运”和“智慧创造”之间的巨大鸿沟。更进一步,我们将探讨一个令人深思的可能:我们感受到的社会撕裂,竟可能是一种被AI精心设计的产物。最后,我们再看看如何请一位“上帝视角”的教练,训练出能主动探索世界的机器人。00:00:42 造车启示录:为什么最强的AI,不是最好的AI?00:06:14 AI的“一本正经胡说八道”,我们终于有办法治它了00:11:30 AI:一个既能干又“无能”的实习生00:16:44 撕裂的社会,可能是一种“精心设计”00:23:10 机器人学习新范式:带个“上帝视角”的教练本期介绍的几篇论文:[CL] AutoNeural: Co-Designing Vision-Language Models for NPU Inference[Nexa AI & Geely Auto]https://arxiv.org/abs/2512.02924---[LG] Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92%[The Catholic University of America]https://arxiv.org/abs/2512.03107---[CL] CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency[Princeton University]https://arxiv.org/abs/2512.00417---[AI] Polarization by Design: How Elites Could Shape Mass Preferences as AI Reduces Persuasion Costs[University of Chicago]https://arxiv.org/abs/2512.04047---[RO] Real-World Reinforcement Learning of Active Perception Behaviors[University of Pennsylvania]https://arxiv.org/abs/2512.01188
--------
28:58
--------
28:58
[人人能懂] 重塑AI的行为、思考与形态
我们总希望AI不只是个聪明的工具,更像个能沟通、能反思、甚至能自我进化的伙伴。本期节目,我们就从几篇最新论文出发,看看科学家们是如何脑洞大开地教AI“忏悔”错误、在虚拟世界里“动手”实践、像团队一样“合成”智慧,甚至上演一出匪夷所思的“灵魂互换”大戏。准备好了吗?让我们一起探索,如何把AI从一个“黑箱”变成一个我们可以理解和塑造的智能体。00:00:33 让AI“忏悔”,我们能得到什么?00:05:49 当AI不再只是个“书呆子”00:11:06 AI自己不行的事,怎么让一群AI办成?00:16:56 AI的“复盘”教练:如何用人话把它教聪明00:22:11 AI变形记:为什么你训练的和最后用的,不必是同一个模型?本期介绍的几篇论文:[CL] Training LLMs for Honesty via Confessions[OpenAI]https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf---[AI] SIMA 2: A Generalist Embodied Agent for Virtual Worlds[Google DeepMind]https://arxiv.org/abs/2512.04797---[AI] Algorithmic Thinking Theory[Google & NYU]https://arxiv.org/abs/2512.04923---[LG] Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space[UC Berkeley & ByteDance Seed]https://arxiv.org/abs/2512.04601---[LG] Network of Theseus (like the ship)[MIT CSAIL & Johns Hopkins University]https://arxiv.org/abs/2512.04198
--------
28:50
--------
28:50
[人人能懂] 黑箱里的秩序,记忆中的断舍离
你有没有想过,AI不仅在学习知识,也在学习如何学习、如何忘记,甚至如何拥有自己独特的“笔迹”?本期节目,我们将看到一个“阅表无数”的AI如何秒解难题,并揭开神经网络训练中那如同“强迫症”般的神秘秩序是如何形成的。我们还会探索一个反常识的发现:为什么让AI学到“顿悟”,反而能让它忘得更快更准?以及AI如何学会“断舍离”,主动过滤记忆来提升自己。最后,我们聊聊如何给开源模型刻上无法抹去的“隐形签名”。准备好了吗?让我们一起潜入AI思想的深水区。00:00:42 你的表格数据,需要一个“见过世面”的AI00:05:56 AI训练中的神秘秩序:一把解开“神经网络坍塌”之谜的钥匙00:11:18 想让机器忘得快,先得让它学到“呆”?00:16:17 AI的“断舍离”:为什么聪明人要学会忘记?00:21:49 AI的“隐形墨水”:如何给开源模型刻上无法抹去的签名?本期介绍的几篇论文:[LG] Accurate predictions on small data with a tabular foundation model[University of Freiburg]https://www.nature.com/articles/s41586-024-08328-6.pdf---[LG] Diagonalizing the Softmax: Hadamard Initialization for Tractable Cross-Entropy Dynamics[University of Oxford & University of British Columbia]https://arxiv.org/abs/2512.04006---[LG] Grokked Models are Better Unlearners[Cardiff University]https://arxiv.org/abs/2512.03437---[LG] Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs[JPMorganChase AI Research & Yale University]https://arxiv.org/abs/2512.03324---[LG] MarkTune: Improving the Quality-Detectability Trade-off in Open-Weight LLM Watermarking[University of Pennsylvania & CMU & Columbia University]https://arxiv.org/abs/2512.04044
--------
28:00
--------
28:00
[人人能懂] 从“笨办法”学习到“随身小抄”
今天我们不聊模型又变大了多少,而是聊几个让AI变得更聪明、更高效的“巧思”。我们会看到,AI如何用“笨办法”打破人类专家的优化极限,又为什么一本精心准备的“错题本”却教不会它自我反思。接着,我们会探索如何用“名师点拨”和“随身小抄”让AI低成本地自我进化。最后,看看如何让AI裁判学会投出更“聪明”的一票,而不仅仅是少数服从多数。准备好了吗?让我们一起看看,这些最新论文是如何用“四两拨千斤”的智慧,刷新我们对人工智能的认知。00:00:40 人工智能时代,还有“最优解”这回事吗?00:05:11 给AI上“错题本”,它就能学聪明吗?00:09:37 AI自学的终极秘诀:不是“题海战术”,而是“名师点拨”00:13:43 AI太贵用不起?这里有个“随身小抄”的省钱妙计00:20:13 AI当裁判,如何投出更聪明的一票?本期介绍的几篇论文:[LG] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning[DeepReinforce Team]https://arxiv.org/abs/2512.02551---[LG] Synthetic Error Injection Fails to Elicit Self-Correction In Language Models[UC Berkeley]https://arxiv.org/abs/2512.02389---[LG] Guided Self-Evolving LLMs with Minimal Human Supervision[Tencent AI Lab in Seattle & Washington University in St. Louis]https://arxiv.org/abs/2512.02472---[LG] In-Context Distillation with Self-Consistency Cascades: A Simple, Training-Free Way to Reduce LLM Agent Costs[Stanford University & Reve]https://arxiv.org/abs/2512.02543---[LG] Distribution-Calibrated Inference time compute for Thinking LLM-as-a-Judge[Google & Google DeepMind]https://arxiv.org/abs/2512.03019