【访谈】Lex Fridman最新五小时访谈精华版 | DeepSeek | 后训练 | 开放权重 | 技术改进 | YOLO Run | AGI | 注意力 | 英伟达 | 数据中心 | Agent
00:27:10
https://www.youtube.com/watch?v=RbGX-FQNYQ0
Summary
TLDR在这场长达5小时的对话中,Lex Fridman和AI领域的专家们深入探讨了DeepSeek模型的最新进展,包括V3和R1的开发与应用。这些模型在训练阶段的策略、开放性与隐私安全性、推理能力的运行机制等方面进行了详细分析。对话还涉及两者在各自应用领域的表现及成本效益分析,以及对未来人工智能技术进展和AGI(通用人工智能)的预测。整个过程对AI技术的未来方向和产业竞争格局提供了深刻见解。
Takeaways
- 🧠 DeepSeek V3和R1模型的不同应用场景
- 🛡️ 开放权重模型和数据隐私的关系
- ⚙️ R1的双阶段推理过程
- 📉 大型模型训练面临的电力消耗挑战
- 🏢 数据中心冷却系统的重要性
- 🌏 全球AI竞赛的未来展望
- 💡 DeepSeek模型的训练策略分析
- 📊 模型性能基准测试对比
- 🔌 YOLO Run策略的使用价值
- 📈 AGI技术的潜在影响
Timeline
- 00:00:00 - 00:05:00
Lex Fridman与Dylan Patel和Nathan Lambert进行了长达五个小时的深入对话,涵盖了DeepSeek的技术突破和全球AI生态的未来。重点介绍了DeepSeek V3和R1模型的发布及其特性,V3专注于通用聊天,R1则优化了推理能力。
- 00:05:00 - 00:10:00
深入讨论了DeepSeek模型的训练过程,包括预训练和后期训练方法,介绍了各种优化技术如指令调优和强化学习调优,并阐明了两者在推理能力和性能上的区别。
- 00:10:00 - 00:15:00
三位嘉宾探讨了模型开放权重及其数据隐私安全问题,强调用户在使用模型时需谨慎选择托管方,并详细描述了DeepSeek R1的两阶段推理生成过程的独特之处。
- 00:15:00 - 00:20:00
谈到DeepSeek R1较其他模型的显著优势,如混合专家模型和多层低秩注意力技术,通过高效的计算实现了在推理效率和训练成本上的创新。
- 00:20:00 - 00:27:10
最后,嘉宾们分析了未来AI的趋势,包括AGI的发展、数据中心建设与环境影响,以及软件工程领域AI带来的变革,预示着技术竞争的不断演进。
Show more
Mind Map
Video Q&A
DeepSeek模型的主要特性是什么?
DeepSeek V3是通用聊天模型,而R1则专注推理能力,能生成详细思考过程适用于复杂任务。
开放权重模型是否安全?
模型本身不窃取用户数据,但使用时需信任托管方,用户可选择本地运行以控制数据。
DeepSeek R1的推理特点有哪些?
DeepSeek R1在生成回答前先输出思考过程,并通过特殊Token标记最终答案。
训练大型AI模型面临哪些挑战?
包括损失函数的不稳定性、计算资源的不足和电力消耗的增长问题。
数据中心如何应对高电力消耗问题?
需要高效的冷却系统和强大的网络连接以支持计算需求。
View more video summaries
Get instant access to free YouTube video summaries powered by AI!
Subtitles
zh-Hans
Auto Scroll:
- 00:00:00大家好,这里是最佳拍档,我是大飞
- 00:00:03昨天
- 00:00:03Lex Fridman与SemiAnalysis的创始人迪伦·帕特尔Dylan Patel和Allen AI的内森·兰伯特Nathan Lambert
- 00:00:09进行了一场深度对话
- 00:00:10时间长达疯狂的5个小时
- 00:00:13对话呢涵盖了DeepSeek的技术突破
- 00:00:15中国AI生态系统的崛起
- 00:00:17以及全球AI竞赛的未来格局等等
- 00:00:20信息量呢巨大
- 00:00:21观点呢也非常的犀利
- 00:00:23尤其是3米analysis
- 00:00:24前两天发表的关于DeepSeek的文章
- 00:00:27信息量巨大
- 00:00:28今天大飞就来为大家解读一下这次对话的重点
- 00:00:32提醒一下,本视频时间也很长
- 00:00:34时间关系也没有做后期
- 00:00:36建议大家准备好零食饮料
- 00:00:38或者在干家务的时候顺便听一下
- 00:00:41如果能有不错的催眠效果
- 00:00:43那正是大飞我的本意
- 00:00:45首先Lex大概介绍了一下DeepSeek V3和DeepSeek R1
- 00:00:48这个我相信大家应该都已经很熟悉了
- 00:00:51所以我尽量简单过这部分
- 00:00:532023年12月26日
- 00:00:55DeepSeek 发布了V3模型
- 00:00:56这是一个混合专家Transformer模型
- 00:00:59用户可以在互联网上公开获取模型的权重参数
- 00:01:02遵循MIT许可证
- 00:01:04随后在2024年1月20日
- 00:01:06DeepSeek 又发布了R1
- 00:01:07这是一个推理模型
- 00:01:09两个模型基于相同的预训练基础模型
- 00:01:11但是在后续的训练步骤上有所不同
- 00:01:14导致了它们在功能和应用场景上的差异
- 00:01:16除了开放权重以外
- 00:01:18DeepSeek还提供了详细的训练报告和代码示例
- 00:01:21有助于其他研究团队进行复现和改进
- 00:01:24接下来
- 00:01:24对话重点围绕DeepSeek的这两个模型展开
- 00:01:28首先是模型的训练阶段
- 00:01:29分为预训练和后训练两个阶段
- 00:01:32预训练阶段主要通过自动回归预测
- 00:01:34来预测文本序列中的下一个Token
- 00:01:36训练数据通常来自大规模的互联网文本
- 00:01:39比如Common Crawl等公开数据集
- 00:01:42预训练完成后,模型进入后训练阶段
- 00:01:44通过不同的训练方法来优化模型的特定行为
- 00:01:48常见的后训练方法包括指令调优、偏好调优和强化学习调优
- 00:01:52其中,指令调优是一种监督学习方法
- 00:01:55通过在训练数据中添加指令格式
- 00:01:58来指导模型生成特定格式的回答
- 00:02:00这种方法通常用来生成结构化的文本
- 00:02:03比如问答对、代码示例等等
- 00:02:05像DeepSeek V3就是用这种方法进行的后训练
- 00:02:08而偏好调优是通过收集人类对不同回答的偏好
- 00:02:12来优化模型的输出质量
- 00:02:14这种方法通常涉及到收集人类对多个回答的偏好评分
- 00:02:18然后使用这些评分来训练一个奖励模型
- 00:02:20指导模型生成更符合人类偏好的回答
- 00:02:24强化学习调优则是一种通过奖励机制来优化模型的方法
- 00:02:28这种方法通过在数学、编程等特定领域中
- 00:02:31设置奖励函数
- 00:02:32让模型通过试错来学习生成正确的答案
- 00:02:36DeepSeek R1就是用这种方法进行的后训练
- 00:02:39在性能和应用场景上
- 00:02:40DeepSeek V3和R1有所不同
- 00:02:43DeepSeek V3是一个通用的聊天模型
- 00:02:45能够生成高质量的、格式化的回答
- 00:02:48适用于各种应用场景
- 00:02:49比如问答系统、编程助手等
- 00:02:52DeepSeek R1则是一个专注于推理能力的模型
- 00:02:55能够生成详细的推理过程
- 00:02:57适用于需要复杂推理的任务
- 00:02:59比如数学问题求解、代码调试等
- 00:03:02根据基准测试结果
- 00:03:03DeepSeek V3的性能与OpenAI GPT-4和Llama 405B相当
- 00:03:08而DeepSeek R1在推理任务上的表现优于其他模型
- 00:03:12此外,DeepSeek V3和R1都开放了权重
- 00:03:14用户可以自由地使用和修改模型
- 00:03:17无需担心数据隐私和商业限制
- 00:03:20接下来
- 00:03:20三人就开放权重的数据隐私和安全性展开了讨论
- 00:03:24虽然模型本身不会窃取用户的数据
- 00:03:27但是用户在使用这些模型的时候
- 00:03:29需要信任模型的托管方,当然
- 00:03:32用户也可以选择在本地运行模型
- 00:03:34从而完全控制自己的数据
- 00:03:36不过,如果用户通过API访问模型服务
- 00:03:38数据就会被托管方处理和存储
- 00:03:41也就存在数据泄露和滥用的风险
- 00:03:43因此
- 00:03:44选择合适的模型托管方和使用方式
- 00:03:47对于保护用户数据隐私至关重要
- 00:03:50由于R1是一个推理模型
- 00:03:52所以它在生成回复的时候
- 00:03:53会先输出一个详细的思考过程
- 00:03:56然后再给出最终的答案
- 00:03:58这个思考过程通常会表现为一长串的Token
- 00:04:01模型会逐步解释问题
- 00:04:03并且分解成多个步骤
- 00:04:04比如
- 00:04:05模型会先说明用户的问题是什么
- 00:04:07然后列出解决问题所需要的步骤
- 00:04:10这些步骤会快速地生成并显示在屏幕上
- 00:04:13最终,模型会切换到一个不同的语气
- 00:04:16总结其思考过程并给出最终答案
- 00:04:19这种两阶段的生成过程
- 00:04:20就是DeepSeek R1的一个显著特点
- 00:04:23在技术实现上
- 00:04:24DeepSeek R1的模型被训练成能够自动进行这种两阶段的推理
- 00:04:29具体来说,模型在生成思考过程后
- 00:04:31会生成一个特殊的Token来标记答案的开始
- 00:04:34这个Token通常对用户来说是不可见的
- 00:04:37通过这种方式
- 00:04:38模型能够独立地完成从推理到给出答案的整个过程
- 00:04:42相比之下
- 00:04:43像OpenAI这样的公司可能会通过用户界面
- 00:04:46将这个过程分解成多个部分
- 00:04:48比如“问题分解”、“计算”、“结果清理”等等
- 00:04:51然后逐步展示给用户
- 00:04:53内森以一个DeepSeek R1推理的例子来说明这个过程
- 00:04:56假设用户问了一个关于人类独特性的哲学问题
- 00:04:59模型会首先详细地分解这个问题
- 00:05:02然后逐步推理出答案
- 00:05:03例如
- 00:05:04模型可能会提到人类具有独特的元情绪
- 00:05:07也就是对于自身情绪的感受
- 00:05:09这种递归的情绪层
- 00:05:11使得人类的行为动机更加复杂
- 00:05:13接着
- 00:05:14模型会进一步探讨人类同时持有矛盾信念的能力
- 00:05:17即认知失调
- 00:05:19这种能力可能有助于灵活适应环境
- 00:05:21最终,模型给出的答案是
- 00:05:23人类通过集体假装抽象规则
- 00:05:26比如金钱、法律和权利的存在
- 00:05:28将自私的欲望转化为合作系统
- 00:05:31从而将冲突转化为社会发展的动力
- 00:05:33这个答案不仅深刻
- 00:05:34而且具有一定的启发性
- 00:05:37在训练和推理效率方面
- 00:05:38DeepSeek R1也做出了显著的改进
- 00:05:41主要的技术包括混合专家模型MoE和多层低秩注意力MLA
- 00:05:46混合专家模型是一种将模型参数
- 00:05:48分成多个子模型的技术
- 00:05:50每个子模型,也称为专家模型
- 00:05:52只会在特定的任务中被激活
- 00:05:54这种方法大大减少了训练和推理时需要计算的参数数量
- 00:05:58从而降低了计算成本
- 00:05:59比方说
- 00:06:00DeepSeek R1虽然有6000多亿个参数
- 00:06:02但是在训练和推理的时候
- 00:06:04每次只会激活大约370亿个参数
- 00:06:07相比之下
- 00:06:08Llama 405B模型需要激活全部4050亿个参数
- 00:06:12计算成本显著更高
- 00:06:14DeepSeek在混合专家模型中还引入了一种新的路由机制
- 00:06:18传统方法中
- 00:06:18混合专家模型可能会依赖辅助损失(auxiliary loss)
- 00:06:21来确保所有专家在训练过程中都被使用
- 00:06:24辅助损失的作用是在训练时平衡不同专家的使用频率
- 00:06:28防止模型只依赖少数几个专家进行预测
- 00:06:31不过
- 00:06:32这种方法可能会引入额外的偏差
- 00:06:35限制模型的学习能力
- 00:06:36但是DeepSeek采取了一种不同的方法
- 00:06:39在每个批次训练结束后
- 00:06:41模型会更新一个额外的参数
- 00:06:43从而确保后续批次中所有专家的使用频率更加均衡
- 00:06:47这种方法避免了辅助损失可能引入的偏差
- 00:06:50同时确保了所有专家的有效利用
- 00:06:52另外
- 00:06:53多层低秩注意力是一种优化注意力机制的技术
- 00:06:56通过使用低秩近似
- 00:06:57来减少内存使用和计算复杂度
- 00:07:00这种方法在训练和推理过程中能带来显著的效率提升
- 00:07:04此外
- 00:07:04DeepSeek R1还对底层通信机制进行了优化
- 00:07:08由于训练过程中涉及大量的GPU通信
- 00:07:11DeepSeek R1通过自定义通信调度策略
- 00:07:14进一步提高了效率
- 00:07:15具体来说
- 00:07:16DeepSeek R1直接在GPU的汇编语言PTX层面进行编程
- 00:07:20优化了不同核心之间的通信
- 00:07:22从而实现了更高的效率
- 00:07:24这些技术的结合
- 00:07:25使得DeepSeek R1在保持高性能的同时
- 00:07:28大幅降低了训练和推理的成本
- 00:07:30例如,与Llama 405B相比
- 00:07:32DeepSeek R1在训练时可以节省大约30%的计算资源
- 00:07:36这种高效的训练和推理能力
- 00:07:38使得DeepSeek R1能够在资源有限的情况下
- 00:07:41仍然保持较高的性能水平
- 00:07:43内森提到
- 00:07:44在The Bitter Lesson苦涩的教训中
- 00:07:46就强调了在训练过程中
- 00:07:47要避免引入过多的人类先验知识
- 00:07:50让模型能够自主学习的重要性
- 00:07:52以及通过引入简单的、可扩展的解决方案
- 00:07:55而不是复杂的、特定于问题的技巧
- 00:07:58模型能够在更大的问题上取得更好的表现
- 00:08:01而DeepSeek的创新正是这一理念的体现
- 00:08:04通过引入新的路由机制
- 00:08:06DeepSeek避免了辅助损失可能引入的偏差
- 00:08:08同时确保了所有专家的有效利用
- 00:08:11这种简单而有效的解决方案
- 00:08:13使得模型在保持高效的同时
- 00:08:15取得了显著的性能提升
- 00:08:17此外,训练大型模型
- 00:08:19本身也是一个复杂且充满挑战的过程
- 00:08:21在训练过程中
- 00:08:22模型可能会遇到各种问题
- 00:08:24包括损失函数的突然上升(loss spikes)
- 00:08:26这些问题可能是由于数据质量问题、模型架构问题或者其他原因引起的
- 00:08:31为了确保模型的稳定性和性能
- 00:08:33训练团队需要密切监控训练过程中的各种指标
- 00:08:37包括损失函数、令牌处理速度等等
- 00:08:39当发现异常的时候
- 00:08:41需要及时采取措施进行调整
- 00:08:43比如,如果发现损失函数突然上升
- 00:08:46可以暂停训练
- 00:08:47检查数据质量,调整超参数等等
- 00:08:49通过不断的调试和优化
- 00:08:51通过不断的调试和优化
- 00:08:53训练团队能够找到最佳的超参数组合
- 00:08:55提高模型的性能
- 00:08:57迪伦接下来提到了YOLO Run的概念
- 00:08:59这个概念来源于一种“一次性投入”的策略
- 00:09:02在小规模实验的阶段
- 00:09:04研究人员会进行各种实验
- 00:09:05比如测试不同的专家数量(4个专家、128个专家)或不同的架构排列方式
- 00:09:12这些实验通常会在少量GPU上进行
- 00:09:14比如3个GPU、数十个GPU或数百个GPU
- 00:09:18然而,当决定进行大规模训练的时候
- 00:09:21所有资源都会被集中使用
- 00:09:22不再进行过多的实验
- 00:09:24而是直接选择认为可行的方案进行投入
- 00:09:27这种策略带来的压力在于
- 00:09:29某些在小规模实验中有效的方案
- 00:09:31可能在大规模训练中会失效
- 00:09:33反之亦然
- 00:09:34因此
- 00:09:34YOLO Run强调在大规模训练时要敢于冒险
- 00:09:37尽管这可能会伴随着一定的风险
- 00:09:40迪伦还指出,在研究领域
- 00:09:42存在两种不同的方法论
- 00:09:43一种是系统化的方法
- 00:09:45通过全面搜索参数空间并进行大量实验
- 00:09:48来找到最佳配置;
- 00:09:50另一种是依靠直觉
- 00:09:51根据数据和经验做出判断
- 00:09:54一些研究人员能够系统地探索整个参数空间
- 00:09:57找到最佳的模型架构;
- 00:09:59而另一些研究人员则凭借直觉
- 00:10:01在短时间内做出决策
- 00:10:02比方说
- 00:10:03选择在后训练阶段进行优化的原因之一是
- 00:10:06训练阶段的GPU成本较低
- 00:10:08可以进行更多的YOLO Run实验
- 00:10:10虽然YOLO Run看起来像是运气
- 00:10:12但是实际上更多的是技能的体现
- 00:10:15在面对训练效果不佳的情况时
- 00:10:17研究人员通常会遵循一套固定的改进策略
- 00:10:20包括数据改进和其他的局部优化
- 00:10:23这些改进最终会积累起来
- 00:10:25让整个模型性能得到显著提升
- 00:10:27尽管搜索空间几乎是无限的
- 00:10:29但是计算资源有限
- 00:10:31因此研究人员必须在短时间内做出最佳决策
- 00:10:34例如,OpenAI在2022年
- 00:10:36就投入大量资源进行GP4模型的训练
- 00:10:39这种做法可以被视为YOLO Run的典型例子
- 00:10:42接下来三人谈到了幻方量化以及DeepSeek算力的猜测
- 00:10:46这部分内容大家可以去看semianalysis那期节目
- 00:10:49内容基本上是一致的
- 00:10:50这里就不再多说了
- 00:10:52谈到未来的AGI
- 00:10:53内森预计会有更大比例的计算资源
- 00:10:56被用于推理和决策过程
- 00:10:58设想一下,一个AGI进入一个房间
- 00:11:00思考如何控制世界
- 00:11:02并且在2.7小时内完成任务
- 00:11:04这将需要极其强大的计算能力
- 00:11:06他还认为,语言模型本身就是一种AGI
- 00:11:09具备广泛的应用价值
- 00:11:10然而
- 00:11:11未来的重点会转向更具有自主性的AI
- 00:11:14这些AI能够执行训练数据中没有包含的任务
- 00:11:17Lex提到Anthropic的CEO Dario曾经使用“超级强大的AI”这个术语来描述这一目标
- 00:11:23认为到2026年
- 00:11:24将出现一种具有显著军事和地缘政治优势的超级强大的AI
- 00:11:29他还在《充满爱意的机器(Machines of
- 00:11:31Loving Grace)》一文中
- 00:11:32认为AI有可能彻底改变生物学等领域
- 00:11:34内森认为
- 00:11:35尽管Dario没有足够的科学背景
- 00:11:37来评估AI在生物学领域的具体影响
- 00:11:39但是可以肯定的是
- 00:11:40AI将在任何计算科学领域加速进步
- 00:11:43DeepSeek R1的发布就是一个很好的例子
- 00:11:46展示了AI在新范式下的巨大进步潜力
- 00:11:49而且这种快速的进步趋势将延续下去
- 00:11:51带来更多的突破
- 00:11:53不过,对于具体的AGI时间线
- 00:11:55内森业表示难以预测
- 00:11:57他认为到2030年之后
- 00:11:59可能会出现具有重大地缘政治影响的AGI
- 00:12:02尽管如此,内森也指出
- 00:12:04AI技术的发展已经对地缘政治产生了影响
- 00:12:07比如,在印度和巴基斯坦的选举中
- 00:12:09人们接收到的AI语音电话
- 00:12:11让他们误以为是在与政治家对话
- 00:12:14此外
- 00:12:14美国最近通过的禁止AI扩散出口管制框架
- 00:12:17限制了对某些国家的云计算和GPU销售
- 00:12:21即使这些国家与地缘政治冲突无关
- 00:12:23这种做法也表明美国对AI技术的担忧
- 00:12:27另外就是英伟达最近大幅削减了今年的H20芯片生产计划
- 00:12:31原本计划生产200万个
- 00:12:33但是最终取消了所有订单
- 00:12:35这个举动表明
- 00:12:36Nvidia可能担心H20芯片会受到进一步的出口限制
- 00:12:40随后三人又聊回了技术方面
- 00:12:42主要集中在推理架构中的关键技术
- 00:12:45首先,在Transformer架构中
- 00:12:47注意力机制是核心的组件之一
- 00:12:49通过计算每个token与其他token之间的相对连接性
- 00:12:52它能够让模型理解上下文中各个单词之间的关系
- 00:12:55而不仅仅是参数本身
- 00:12:57在注意力机制中
- 00:12:58有三个核心组成部分
- 00:13:00分别是查询(Query)、键(Key)和值(Value)
- 00:13:02通常简称为QKV
- 00:13:04这些矩阵在计算过程中相乘
- 00:13:06从而确定每个token与其他token之间的关系
- 00:13:09查询是模型试图获取信息的目标
- 00:13:12键和值则用来检索这些信息
- 00:13:14在自回归模型中
- 00:13:15模型会逐个生成token
- 00:13:17并且在每次生成的时候更新KV缓存
- 00:13:20KV缓存里存的是之前所有token的压缩表示
- 00:13:23而模型在生成下一个token的时候
- 00:13:26会参考这个缓存
- 00:13:27应该说
- 00:13:28KV缓存的使用极大地提高了推理效率
- 00:13:30因为它避免了重复计算
- 00:13:32不过
- 00:13:33注意力机制也存在一个显著的缺点
- 00:13:35那就是它的内存成本与上下文长度成正比
- 00:13:39这意味着,随着上下文长度的增加
- 00:13:41内存需求也会迅速增长
- 00:13:43这对于大规模推理服务构成了挑战
- 00:13:46对于长序列上下文
- 00:13:47内森提到了一些新的注意力机制
- 00:13:49可以通过优化内存使用
- 00:13:51来提高模型处理长序列的能力
- 00:13:53比方说Gemini就拥有业界最长的上下文长度
- 00:13:56高达200万token
- 00:13:58这主要得益于Google在TPU架构上的优化
- 00:14:01对于输入和输出Token的价格为什么存在差异
- 00:14:04内森指出
- 00:14:05这主要是因为生成Token的过程不是并行的
- 00:14:08具体来说,输入一个查询的时候
- 00:14:10可以并行计算所有Token的KV缓存
- 00:14:13而生成一个Token的时候
- 00:14:14必须顺序地读取整个模型和KV缓存
- 00:14:17计算下一个Token
- 00:14:18并将新生成的Token及其KV缓存
- 00:14:21追加到缓存中
- 00:14:22因此,生成Token的计算复杂度
- 00:14:24要远高于输入Token
- 00:14:26通常,API提供商对输入Token的收费
- 00:14:29大约为输出Token的四分之一
- 00:14:31就是因为输入Token可以批量处理
- 00:14:33而输出Token则需要逐个生成
- 00:14:36而DeepSeek R1模型在推理成本方面表现出色
- 00:14:39每百万输出Token的成本仅为2美元
- 00:14:42而OpenAI的GPT-4则高达60美元
- 00:14:45这种成本上的差异
- 00:14:46主要源于DeepSeek在模型架构上的创新
- 00:14:49包括通过MLA注意力机制
- 00:14:51将内存使用节省了80%到90%,
- 00:14:54以及使用局部-全局注意力和滑动窗口机制等其他优化技术
- 00:14:59对于各个模型的表现
- 00:15:00Lex做了一个简单的哲学问题测试
- 00:15:02他自己认为
- 00:15:03o1 Pro的表现最好,也最稳定
- 00:15:06接下来是DeepSeek R1
- 00:15:07Gemini Flash 2.0排在第三
- 00:15:09而o3 mini则排在最后
- 00:15:11尽管o3 mini在头脑风暴中的表现要优于R1
- 00:15:15但是在开放性哲学问题上的表现较差
- 00:15:17这其中
- 00:15:18DeepSeek R1展示了完整的思考链
- 00:15:21这种透明的思考过程
- 00:15:22对于欣赏智能和推理过程的人来说
- 00:15:25具有极大的吸引力
- 00:15:26通过观察这种思考路径
- 00:15:28可以看到智能系统的非线性思维过程
- 00:15:30类似于詹姆斯·乔伊斯的《尤利塞斯》或《芬尼根的守灵夜》中的思维过程
- 00:15:34夜中的思维过程
- 00:15:35关于Nvidia股票的下跌
- 00:15:36Lex提到主要是由于DeepSeek的发布
- 00:15:39引发了市场对Nvidia GPU需求减少的担忧
- 00:15:42不过,这种担忧可能被夸大了
- 00:15:44Nvidia GPU的需求仍然很高
- 00:15:46尤其是在数据中心领域
- 00:15:48而且AI的进步
- 00:15:49可能还会进一步推动对高性能计算的需求
- 00:15:52这将有利于Nvidia等公司
- 00:15:54接下来一大块的内容是讨论训练集训与数据中心的建设
- 00:15:58迪伦指出
- 00:15:59数据中心的电力消耗在过去几十年中逐渐增加
- 00:16:02预计到2028年或2030年
- 00:16:05这一比例可能达到10%。
- 00:16:07这个数字对于AI公司来说显得尤为重要
- 00:16:10Anthropic和OpenAI等公司认为
- 00:16:12现有的电力消耗水平远远不够
- 00:16:15未来需要更多的电力支持
- 00:16:17集群建设主要分为两种类型
- 00:16:19分别是分布式集群和集中式集群
- 00:16:22分布式集群在全球范围内或者美国境内广泛分布
- 00:16:26主要用于处理推理任务
- 00:16:27这种模式在AI服务中非常常见
- 00:16:30比如Word Copilot、Apple Intelligence等等
- 00:16:33而集中式集群则主要用来训练大型模型
- 00:16:36以GPT-3和GPT-4为例
- 00:16:38GPT-4使用了20000块A100 GPU进行训练
- 00:16:41耗电量达到了15到20兆瓦
- 00:16:44另外,随着技术的进步
- 00:16:45GPU的功耗也在不断增加
- 00:16:47比如H100 GPU的功耗从400瓦提升到了700瓦
- 00:16:52加上其他硬件设备
- 00:16:53每块GPU的总功耗大约为1200到1400瓦
- 00:16:56因此
- 00:16:57大规模集群的建设不仅需要大量的电力支持
- 00:17:00还需要高效的冷却系统和强大的网络连接
- 00:17:03在数据中心的设计和扩展方面
- 00:17:06迪伦举了几个例子
- 00:17:07比如Meta最初的数据中心设计是呈H型的
- 00:17:11通过连接多个这样的模块来实现扩展
- 00:17:13起初,Meta部署了16000块GPU
- 00:17:16最终扩展到24000块GPU
- 00:17:19不过,由于GPU的高故障率
- 00:17:21只有大约16000块GPU用于实际的训练
- 00:17:23其余作为备用
- 00:17:25随着时间的推移
- 00:17:26Meta的数据中心规模不断扩大
- 00:17:28目前LLaMA 4的训练使用了大约100000块GPU
- 00:17:32计划扩展到128000块GPU
- 00:17:34考虑到每块GPU大约消耗1400瓦的电力
- 00:17:37这意味着数据中心的总电力消耗
- 00:17:40从2022年的大约15兆瓦
- 00:17:42增加到2024年的大约150兆瓦
- 00:17:45实现了近10倍的增长
- 00:17:46Elon Musk的XAI
- 00:17:48在数据中心建设方面也展现了极高的热情和决心
- 00:17:52XAI在2022年开始建设数据中心
- 00:17:54并且迅速成为全球最大的GPU集群
- 00:17:57规模达到200000块GPU
- 00:17:59为了支持如此庞大的计算需求
- 00:18:01XAI在田纳西州孟菲斯市
- 00:18:03购买了一座废弃的电器工厂
- 00:18:05并且进行了大规模的基础设施改造
- 00:18:08其中包括升级变电站、部署移动电源生成系统、连接天然气管道
- 00:18:13以及建设天然气发电厂
- 00:18:15此外
- 00:18:15XAI还引入了特斯拉的Megapack电池储能系统
- 00:18:18来确保电力供应的稳定性
- 00:18:20并且使用工业级冷水机来冷却服务器
- 00:18:24而相比之下
- 00:18:25OpenAI在亚利桑那州和德克萨斯州阿本纳建设的数据中心计划
- 00:18:28更是令人震惊
- 00:18:30据OpenAI官方宣布
- 00:18:31这个数据中心的总电力消耗将达到2200兆瓦
- 00:18:35其中大约1800兆瓦会直接用于芯片运算
- 00:18:38这个规模相当于一个小城市的电力消耗
- 00:18:41足以支持大规模的模型预训练和后训练任务
- 00:18:44OpenAI的Stargate项目
- 00:18:45正是想通过多吉瓦级的数据中心
- 00:18:48来加速AI模型的发展
- 00:18:50特别是在强化学习、计算机视觉等前沿领域
- 00:18:53迪伦还特别提到了一个值得大家注意的点
- 00:18:56那就是被称为幕后英雄的冷却和电气系统
- 00:18:59他举了一个例子
- 00:19:00那就是在训练过程中
- 00:19:02计算和权重交换之间的电力消耗差异极大
- 00:19:05在模型训练的每一步中
- 00:19:07计算任务会消耗大量的电力
- 00:19:10如果计算和通信不能完美重叠
- 00:19:13GPU可能会进入空闲状态
- 00:19:15导致电力消耗出现尖峰
- 00:19:17这种尖峰可能会导致数据中心的电力设施过载
- 00:19:20甚至引发故障
- 00:19:22为了解决这个问题
- 00:19:23Meta在PyTorch中添加了一个名为`PowerPlant no blowup`的操作符
- 00:19:27这个操作符能在权重交换期间
- 00:19:30让GPU计算一些虚拟数据
- 00:19:32从而避免电力消耗的剧烈波动
- 00:19:34而特斯拉则采用了一种不同的方法
- 00:19:36即使用大量的Tesla Mega Packs来解决电力的管理问题
- 00:19:40虽然每家公司都有自己的解决方案
- 00:19:43但是Meta的做法是公开且透明的
- 00:19:45而且可以通过简单的操作符调整
- 00:19:47来优化电力使用
- 00:19:49此外,迪伦指出
- 00:19:50传统的数据中心冷却系统主要依赖于空气冷却
- 00:19:53包括金属散热器、热管和风扇等组件
- 00:19:57不过,随着计算能力的提升
- 00:19:58传统的空气冷却系统已经无法满足需求
- 00:20:01谷歌的TPU已经使用了多年的水冷系统
- 00:20:04但是对于GPU
- 00:20:06大规模的水冷系统还没有普及
- 00:20:08Nvidia已经在最新一代的高端GPU中
- 00:20:10强制要求使用水冷系统
- 00:20:12特斯拉则在现有的GPU中采用了大规模水冷系统
- 00:20:16比如在Memphis数据中心
- 00:20:18就有90个大型水冷机
- 00:20:20这种冷却系统不仅能提高冷却效率
- 00:20:22还能提高数据中心的整体性能
- 00:20:25在集群规模竞赛中
- 00:20:26特斯拉目前处于领先地位
- 00:20:28Memphis数据中心拥有200000个GPU
- 00:20:30其中包括100000个H100和100000个H20
- 00:20:33Meta和OpenAI紧随其后
- 00:20:35分别拥有128000和100000个GPU
- 00:20:38虽然其他公司拥有更多的GPU
- 00:20:40但是这些GPU通常分散在不同的地区
- 00:20:43因此,特斯拉的单体集群规模
- 00:20:45在当前竞赛中占据优势
- 00:20:47预计到今年年底
- 00:20:49Anthropic和Amazon将建设一个包含400
- 00:20:51000个Trainium 2芯片的集群
- 00:20:54Meta和OpenAI也有计划在未来几年内
- 00:20:56将GPU集群规模扩大到500000到700000个
- 00:21:00这些大规模的GPU集群主要用来训练预训练任务
- 00:21:03不过,随着现有数据集的趋于饱和
- 00:21:05预训练阶段的扩展空间有限
- 00:21:07相比之下
- 00:21:08后训练阶段将消耗更多的计算资源
- 00:21:11这些任务包括模型的自我训练、模拟环境中的任务执行
- 00:21:15以及复杂的推理任务等等
- 00:21:17传统的FLOPS指标可能已经不再完全适用于这些任务
- 00:21:20因此未来可能会出现新的性能评估指标
- 00:21:23来更好地反映这些复杂任务的计算需求
- 00:21:26对于目前的几家云计算大厂
- 00:21:29迪伦指出
- 00:21:30Google Cloud虽然在某些方面表现强劲
- 00:21:32但是在整体市场份额上
- 00:21:34Google Cloud排名第三
- 00:21:35微软排名第二,亚马逊则遥遥领先
- 00:21:38微软看似市场份额较大
- 00:21:40但是它主要是在企业级许可证(比如Microsoft Office 365)中占有很大比例
- 00:21:45实际上差距更大
- 00:21:47亚马逊之所以领先
- 00:21:48是因为使用AWS更为便捷
- 00:21:50而且在许多情况下更为经济实惠
- 00:21:53此外,AWS是最早进入市场的
- 00:21:55一旦用户开始使用,切换成本极高
- 00:21:58而且存在高额的转换费用
- 00:22:01AWS为亚马逊贡献了超过80%的利润
- 00:22:03甚至可能超过90%,
- 00:22:05盈利能力惊人
- 00:22:07尽管AWS的用户界面仍然显得有些笨拙
- 00:22:11亚马逊的服务质量更优
- 00:22:13自主研发的硬件更是降低了成本结构
- 00:22:16包括存储、CPU和网络等传统的云服务
- 00:22:19在数据库领域
- 00:22:20亚马逊的五大收入产品中
- 00:22:22有四个与数据库相关,比如Redshift
- 00:22:25这进一步巩固了它的市场地位
- 00:22:27谷歌的硬件团队虽然拥有TPU等优秀产品
- 00:22:30但是这些硬件主要用在内部服务
- 00:22:33而非面向外部客户
- 00:22:35相比之下,Nvidia从成立之初
- 00:22:37就专注在为外部客户提供高性能的计算解决方案
- 00:22:41在《英伟达之道》一书中
- 00:22:43就阐述了Nvidia的整个企业文化
- 00:22:45其实都是围绕这个目标构建的
- 00:22:47Nvidia通过优化CUDA软件库
- 00:22:49迅速适应高性能计算的新需求
- 00:22:52这与谷歌的服务模式截然不同
- 00:22:54在硬件领域
- 00:22:55Nvidia的优势难以被Intel和AMD等竞争对手超越
- 00:22:59尽管AMD和Intel的硬件在某些方面优于Nvidia
- 00:23:02但是软件支持相对不足
- 00:23:04尤其是对于开源库的支持
- 00:23:06Intel目前面临严峻的挑战
- 00:23:08市场份额不断下滑
- 00:23:10尤其是在服务器和PC市场
- 00:23:12苹果的M1芯片、Nvidia和Qualcomm的PC芯片
- 00:23:15以及各个超大规模数据中心自研的ARM服务器芯片
- 00:23:18都在侵蚀Intel的市场份额
- 00:23:20另外,Intel在AI芯片领域进展缓慢
- 00:23:23并且在移动市场错失良机
- 00:23:25导致它失去了技术领先地位
- 00:23:27尽管Intel正在努力追赶
- 00:23:29但是前景仍不明朗
- 00:23:31迪伦认为,在未来的AI竞赛中
- 00:23:34单一公司独占鳌头的可能性比较小
- 00:23:36许多公司将会在AI的不同领域受益
- 00:23:39不仅局限于训练最佳的模型
- 00:23:41像Meta就可以通过其庞大的用户基础和多样化的产品线
- 00:23:45从AI中获得巨大的收益
- 00:23:47对于OpenAI来说
- 00:23:48尽管在大语言模型领域占据优势
- 00:23:50但是在商业模式面临很大挑战
- 00:23:53ChatGPT虽然价值巨大
- 00:23:56未来
- 00:23:56OpenAI还需探索其他的应用领域
- 00:23:59比如推理、代码生成和机器人等等
- 00:24:01来实现可持续发展
- 00:24:03总的来说
- 00:24:04像谷歌和Meta这些公司拥有更广泛的业务组合
- 00:24:08可以从AI中获得多重收益
- 00:24:10而像OpenAI和Anthropic这些专注于先进模型的公司
- 00:24:13必须不断创新
- 00:24:14才能保持竞争力
- 00:24:16访谈接近尾声,在有关Agent的话题上
- 00:24:19迪伦认为,目前刚刚进入推理阶段
- 00:24:22可能还需要一两年,然后才是Agent
- 00:24:25虽然人们现在可以尝试Agent的能力
- 00:24:27让代理持续几分钟甚至几小时
- 00:24:30自主地执行任务
- 00:24:31但是最大的问题是
- 00:24:33就像制造业中的六西格玛一样
- 00:24:35每增加一个步骤
- 00:24:36即使是最先进的系统也会降低整体的性能
- 00:24:39即使最好的语言模型在基准测试中表现良好
- 00:24:43但是它们也并不是100%准确的
- 00:24:45因为存在噪声
- 00:24:46因此
- 00:24:47如何达到足够的可靠性仍然是一个挑战
- 00:24:50这与自动驾驶类似
- 00:24:51而足够的可靠性
- 00:24:53在一个开放、混乱的网络环境中是不可能实现的
- 00:24:56就像在互联网历史上
- 00:24:58航空公司和酒店虽然有很强的动力让自己的网站工作良好
- 00:25:02但是预订机票的界面通常非常糟糕
- 00:25:05想象一下
- 00:25:06AI Agent能否处理这些网站
- 00:25:08就连人类用户都经常在预订机票时感到困惑
- 00:25:12如果航空公司能够把网站优化的更易于AI处理
- 00:25:15那么这将会带来显著的经济利益
- 00:25:18在编程方面
- 00:25:19AI Agent已经取得了显著的成果
- 00:25:21比如代码补全、函数生成和代码审查等功能
- 00:25:24已经得到了广泛应用
- 00:25:26软件工程Agent不仅可以进行单元测试或者编译
- 00:25:30还可以检查整个代码库
- 00:25:31这是普通工程师无法做到的
- 00:25:34因此,软件工程的成本将大幅下降
- 00:25:37这将导致不同的市场,比方在中国
- 00:25:40由于软件工程师的成本较低
- 00:25:42企业更倾向于构建自己的技术栈
- 00:25:44而不是使用平台SaaS
- 00:25:46因此
- 00:25:47编程的大语言模型在中国的采用程度较低
- 00:25:50因为工程师成本较低
- 00:25:52但是
- 00:25:52当每个公司都能以低成本和快速的方式
- 00:25:55构建自己的业务逻辑时
- 00:25:57将不会再选择使用平台SaaS
- 00:25:59而是会选择构建定制化的解决方案
- 00:26:01从而提高效率
- 00:26:03所以说,软件工程领域的进步
- 00:26:05将会导致软件工程师的成本急剧下降
- 00:26:08不过
- 00:26:08这并不意味着软件工程师会突然失业
- 00:26:11而是工作性质会发生变化
- 00:26:13人类将在AI系统中扮演更重要的角色
- 00:26:16人类需要监督和修正代码,进行调试
- 00:26:19并且设计最佳的解决方案
- 00:26:21AI可以来提供多种选项
- 00:26:23但是人类需要判断哪个更好
- 00:26:25因此
- 00:26:26软件工程师需要具备高水平的编程技能
- 00:26:29并且成为某个领域的专家
- 00:26:30最后
- 00:26:31内森还介绍了一下自己Ai2实验室的Tulu开源模型
- 00:26:34并且跟DeepSeek V3做了一些对比
- 00:26:37在平均基准测试上略高一分
- 00:26:40具体内容我们就不多展开说了
- 00:26:42对这个模型有兴趣的观众
- 00:26:43可以去看一下他们的官网
- 00:26:45好了
- 00:26:45以上就是Lex Fridman这次5小时播客的主要内容了
- 00:26:49其实很多内容在我们频道的很多节目中
- 00:26:52都陆陆续续覆盖到了
- 00:26:53这次三个人相当于做了一个通盘的回顾和总结
- 00:26:56不得不说
- 00:26:57Lex的节目真是令人看得发狂
- 00:26:59希望大飞这期节目能帮大家节省下几个小时的时间
- 00:27:03其间总结的比较仓促,难免会有错误
- 00:27:06欢迎大家指出,我及时改正
- 00:27:08感谢大家的观看,我们下期再见
Tags
- DeepSeek
- AI生态系统
- 模型训练
- 推理能力
- 开放权重
- 数据隐私
- 电力消耗
- 数据中心
- AGI
- Nvidia