【访谈】Lex Fridman最新五小时访谈精华版 | DeepSeek | 后训练 | 开放权重 | 技术改进 | YOLO Run | AGI | 注意力 | 英伟达 | 数据中心 | Agent
00:27:10
https://www.youtube.com/watch?v=RbGX-FQNYQ0
Ringkasan
TLDR在这场长达5小时的对话中,Lex Fridman和AI领域的专家们深入探讨了DeepSeek模型的最新进展,包括V3和R1的开发与应用。这些模型在训练阶段的策略、开放性与隐私安全性、推理能力的运行机制等方面进行了详细分析。对话还涉及两者在各自应用领域的表现及成本效益分析,以及对未来人工智能技术进展和AGI(通用人工智能)的预测。整个过程对AI技术的未来方向和产业竞争格局提供了深刻见解。
Takeaways
- 🧠 DeepSeek V3和R1模型的不同应用场景
- 🛡️ 开放权重模型和数据隐私的关系
- ⚙️ R1的双阶段推理过程
- 📉 大型模型训练面临的电力消耗挑战
- 🏢 数据中心冷却系统的重要性
- 🌏 全球AI竞赛的未来展望
- 💡 DeepSeek模型的训练策略分析
- 📊 模型性能基准测试对比
- 🔌 YOLO Run策略的使用价值
- 📈 AGI技术的潜在影响
Garis waktu
- 00:00:00 - 00:05:00
Lex Fridman与Dylan Patel和Nathan Lambert进行了长达五个小时的深入对话,涵盖了DeepSeek的技术突破和全球AI生态的未来。重点介绍了DeepSeek V3和R1模型的发布及其特性,V3专注于通用聊天,R1则优化了推理能力。
- 00:05:00 - 00:10:00
深入讨论了DeepSeek模型的训练过程,包括预训练和后期训练方法,介绍了各种优化技术如指令调优和强化学习调优,并阐明了两者在推理能力和性能上的区别。
- 00:10:00 - 00:15:00
三位嘉宾探讨了模型开放权重及其数据隐私安全问题,强调用户在使用模型时需谨慎选择托管方,并详细描述了DeepSeek R1的两阶段推理生成过程的独特之处。
- 00:15:00 - 00:20:00
谈到DeepSeek R1较其他模型的显著优势,如混合专家模型和多层低秩注意力技术,通过高效的计算实现了在推理效率和训练成本上的创新。
- 00:20:00 - 00:27:10
最后,嘉宾们分析了未来AI的趋势,包括AGI的发展、数据中心建设与环境影响,以及软件工程领域AI带来的变革,预示着技术竞争的不断演进。
Tampilkan lebih banyak
Peta Pikiran
Video Tanya Jawab
DeepSeek模型的主要特性是什么?
DeepSeek V3是通用聊天模型,而R1则专注推理能力,能生成详细思考过程适用于复杂任务。
开放权重模型是否安全?
模型本身不窃取用户数据,但使用时需信任托管方,用户可选择本地运行以控制数据。
DeepSeek R1的推理特点有哪些?
DeepSeek R1在生成回答前先输出思考过程,并通过特殊Token标记最终答案。
训练大型AI模型面临哪些挑战?
包括损失函数的不稳定性、计算资源的不足和电力消耗的增长问题。
数据中心如何应对高电力消耗问题?
需要高效的冷却系统和强大的网络连接以支持计算需求。
Lihat lebih banyak ringkasan video
Dapatkan akses instan ke ringkasan video YouTube gratis yang didukung oleh AI!
Teks
zh-Hans
Gulir Otomatis:
- 00:00:00大家好,这里是最佳拍档,我是大飞
- 00:00:03昨天
- 00:00:03Lex Fridman与SemiAnalysis的创始人迪伦·帕特尔Dylan Patel和Allen AI的内森·兰伯特Nathan Lambert
- 00:00:09进行了一场深度对话
- 00:00:10时间长达疯狂的5个小时
- 00:00:13对话呢涵盖了DeepSeek的技术突破
- 00:00:15中国AI生态系统的崛起
- 00:00:17以及全球AI竞赛的未来格局等等
- 00:00:20信息量呢巨大
- 00:00:21观点呢也非常的犀利
- 00:00:23尤其是3米analysis
- 00:00:24前两天发表的关于DeepSeek的文章
- 00:00:27信息量巨大
- 00:00:28今天大飞就来为大家解读一下这次对话的重点
- 00:00:32提醒一下,本视频时间也很长
- 00:00:34时间关系也没有做后期
- 00:00:36建议大家准备好零食饮料
- 00:00:38或者在干家务的时候顺便听一下
- 00:00:41如果能有不错的催眠效果
- 00:00:43那正是大飞我的本意
- 00:00:45首先Lex大概介绍了一下DeepSeek V3和DeepSeek R1
- 00:00:48这个我相信大家应该都已经很熟悉了
- 00:00:51所以我尽量简单过这部分
- 00:00:532023年12月26日
- 00:00:55DeepSeek 发布了V3模型
- 00:00:56这是一个混合专家Transformer模型
- 00:00:59用户可以在互联网上公开获取模型的权重参数
- 00:01:02遵循MIT许可证
- 00:01:04随后在2024年1月20日
- 00:01:06DeepSeek 又发布了R1
- 00:01:07这是一个推理模型
- 00:01:09两个模型基于相同的预训练基础模型
- 00:01:11但是在后续的训练步骤上有所不同
- 00:01:14导致了它们在功能和应用场景上的差异
- 00:01:16除了开放权重以外
- 00:01:18DeepSeek还提供了详细的训练报告和代码示例
- 00:01:21有助于其他研究团队进行复现和改进
- 00:01:24接下来
- 00:01:24对话重点围绕DeepSeek的这两个模型展开
- 00:01:28首先是模型的训练阶段
- 00:01:29分为预训练和后训练两个阶段
- 00:01:32预训练阶段主要通过自动回归预测
- 00:01:34来预测文本序列中的下一个Token
- 00:01:36训练数据通常来自大规模的互联网文本
- 00:01:39比如Common Crawl等公开数据集
- 00:01:42预训练完成后,模型进入后训练阶段
- 00:01:44通过不同的训练方法来优化模型的特定行为
- 00:01:48常见的后训练方法包括指令调优、偏好调优和强化学习调优
- 00:01:52其中,指令调优是一种监督学习方法
- 00:01:55通过在训练数据中添加指令格式
- 00:01:58来指导模型生成特定格式的回答
- 00:02:00这种方法通常用来生成结构化的文本
- 00:02:03比如问答对、代码示例等等
- 00:02:05像DeepSeek V3就是用这种方法进行的后训练
- 00:02:08而偏好调优是通过收集人类对不同回答的偏好
- 00:02:12来优化模型的输出质量
- 00:02:14这种方法通常涉及到收集人类对多个回答的偏好评分
- 00:02:18然后使用这些评分来训练一个奖励模型
- 00:02:20指导模型生成更符合人类偏好的回答
- 00:02:24强化学习调优则是一种通过奖励机制来优化模型的方法
- 00:02:28这种方法通过在数学、编程等特定领域中
- 00:02:31设置奖励函数
- 00:02:32让模型通过试错来学习生成正确的答案
- 00:02:36DeepSeek R1就是用这种方法进行的后训练
- 00:02:39在性能和应用场景上
- 00:02:40DeepSeek V3和R1有所不同
- 00:02:43DeepSeek V3是一个通用的聊天模型
- 00:02:45能够生成高质量的、格式化的回答
- 00:02:48适用于各种应用场景
- 00:02:49比如问答系统、编程助手等
- 00:02:52DeepSeek R1则是一个专注于推理能力的模型
- 00:02:55能够生成详细的推理过程
- 00:02:57适用于需要复杂推理的任务
- 00:02:59比如数学问题求解、代码调试等
- 00:03:02根据基准测试结果
- 00:03:03DeepSeek V3的性能与OpenAI GPT-4和Llama 405B相当
- 00:03:08而DeepSeek R1在推理任务上的表现优于其他模型
- 00:03:12此外,DeepSeek V3和R1都开放了权重
- 00:03:14用户可以自由地使用和修改模型
- 00:03:17无需担心数据隐私和商业限制
- 00:03:20接下来
- 00:03:20三人就开放权重的数据隐私和安全性展开了讨论
- 00:03:24虽然模型本身不会窃取用户的数据
- 00:03:27但是用户在使用这些模型的时候
- 00:03:29需要信任模型的托管方,当然
- 00:03:32用户也可以选择在本地运行模型
- 00:03:34从而完全控制自己的数据
- 00:03:36不过,如果用户通过API访问模型服务
- 00:03:38数据就会被托管方处理和存储
- 00:03:41也就存在数据泄露和滥用的风险
- 00:03:43因此
- 00:03:44选择合适的模型托管方和使用方式
- 00:03:47对于保护用户数据隐私至关重要
- 00:03:50由于R1是一个推理模型
- 00:03:52所以它在生成回复的时候
- 00:03:53会先输出一个详细的思考过程
- 00:03:56然后再给出最终的答案
- 00:03:58这个思考过程通常会表现为一长串的Token
- 00:04:01模型会逐步解释问题
- 00:04:03并且分解成多个步骤
- 00:04:04比如
- 00:04:05模型会先说明用户的问题是什么
- 00:04:07然后列出解决问题所需要的步骤
- 00:04:10这些步骤会快速地生成并显示在屏幕上
- 00:04:13最终,模型会切换到一个不同的语气
- 00:04:16总结其思考过程并给出最终答案
- 00:04:19这种两阶段的生成过程
- 00:04:20就是DeepSeek R1的一个显著特点
- 00:04:23在技术实现上
- 00:04:24DeepSeek R1的模型被训练成能够自动进行这种两阶段的推理
- 00:04:29具体来说,模型在生成思考过程后
- 00:04:31会生成一个特殊的Token来标记答案的开始
- 00:04:34这个Token通常对用户来说是不可见的
- 00:04:37通过这种方式
- 00:04:38模型能够独立地完成从推理到给出答案的整个过程
- 00:04:42相比之下
- 00:04:43像OpenAI这样的公司可能会通过用户界面
- 00:04:46将这个过程分解成多个部分
- 00:04:48比如“问题分解”、“计算”、“结果清理”等等
- 00:04:51然后逐步展示给用户
- 00:04:53内森以一个DeepSeek R1推理的例子来说明这个过程
- 00:04:56假设用户问了一个关于人类独特性的哲学问题
- 00:04:59模型会首先详细地分解这个问题
- 00:05:02然后逐步推理出答案
- 00:05:03例如
- 00:05:04模型可能会提到人类具有独特的元情绪
- 00:05:07也就是对于自身情绪的感受
- 00:05:09这种递归的情绪层
- 00:05:11使得人类的行为动机更加复杂
- 00:05:13接着
- 00:05:14模型会进一步探讨人类同时持有矛盾信念的能力
- 00:05:17即认知失调
- 00:05:19这种能力可能有助于灵活适应环境
- 00:05:21最终,模型给出的答案是
- 00:05:23人类通过集体假装抽象规则
- 00:05:26比如金钱、法律和权利的存在
- 00:05:28将自私的欲望转化为合作系统
- 00:05:31从而将冲突转化为社会发展的动力
- 00:05:33这个答案不仅深刻
- 00:05:34而且具有一定的启发性
- 00:05:37在训练和推理效率方面
- 00:05:38DeepSeek R1也做出了显著的改进
- 00:05:41主要的技术包括混合专家模型MoE和多层低秩注意力MLA
- 00:05:46混合专家模型是一种将模型参数
- 00:05:48分成多个子模型的技术
- 00:05:50每个子模型,也称为专家模型
- 00:05:52只会在特定的任务中被激活
- 00:05:54这种方法大大减少了训练和推理时需要计算的参数数量
- 00:05:58从而降低了计算成本
- 00:05:59比方说
- 00:06:00DeepSeek R1虽然有6000多亿个参数
- 00:06:02但是在训练和推理的时候
- 00:06:04每次只会激活大约370亿个参数
- 00:06:07相比之下
- 00:06:08Llama 405B模型需要激活全部4050亿个参数
- 00:06:12计算成本显著更高
- 00:06:14DeepSeek在混合专家模型中还引入了一种新的路由机制
- 00:06:18传统方法中
- 00:06:18混合专家模型可能会依赖辅助损失(auxiliary loss)
- 00:06:21来确保所有专家在训练过程中都被使用
- 00:06:24辅助损失的作用是在训练时平衡不同专家的使用频率
- 00:06:28防止模型只依赖少数几个专家进行预测
- 00:06:31不过
- 00:06:32这种方法可能会引入额外的偏差
- 00:06:35限制模型的学习能力
- 00:06:36但是DeepSeek采取了一种不同的方法
- 00:06:39在每个批次训练结束后
- 00:06:41模型会更新一个额外的参数
- 00:06:43从而确保后续批次中所有专家的使用频率更加均衡
- 00:06:47这种方法避免了辅助损失可能引入的偏差
- 00:06:50同时确保了所有专家的有效利用
- 00:06:52另外
- 00:06:53多层低秩注意力是一种优化注意力机制的技术
- 00:06:56通过使用低秩近似
- 00:06:57来减少内存使用和计算复杂度
- 00:07:00这种方法在训练和推理过程中能带来显著的效率提升
- 00:07:04此外
- 00:07:04DeepSeek R1还对底层通信机制进行了优化
- 00:07:08由于训练过程中涉及大量的GPU通信
- 00:07:11DeepSeek R1通过自定义通信调度策略
- 00:07:14进一步提高了效率
- 00:07:15具体来说
- 00:07:16DeepSeek R1直接在GPU的汇编语言PTX层面进行编程
- 00:07:20优化了不同核心之间的通信
- 00:07:22从而实现了更高的效率
- 00:07:24这些技术的结合
- 00:07:25使得DeepSeek R1在保持高性能的同时
- 00:07:28大幅降低了训练和推理的成本
- 00:07:30例如,与Llama 405B相比
- 00:07:32DeepSeek R1在训练时可以节省大约30%的计算资源
- 00:07:36这种高效的训练和推理能力
- 00:07:38使得DeepSeek R1能够在资源有限的情况下
- 00:07:41仍然保持较高的性能水平
- 00:07:43内森提到
- 00:07:44在The Bitter Lesson苦涩的教训中
- 00:07:46就强调了在训练过程中
- 00:07:47要避免引入过多的人类先验知识
- 00:07:50让模型能够自主学习的重要性
- 00:07:52以及通过引入简单的、可扩展的解决方案
- 00:07:55而不是复杂的、特定于问题的技巧
- 00:07:58模型能够在更大的问题上取得更好的表现
- 00:08:01而DeepSeek的创新正是这一理念的体现
- 00:08:04通过引入新的路由机制
- 00:08:06DeepSeek避免了辅助损失可能引入的偏差
- 00:08:08同时确保了所有专家的有效利用
- 00:08:11这种简单而有效的解决方案
- 00:08:13使得模型在保持高效的同时
- 00:08:15取得了显著的性能提升
- 00:08:17此外,训练大型模型
- 00:08:19本身也是一个复杂且充满挑战的过程
- 00:08:21在训练过程中
- 00:08:22模型可能会遇到各种问题
- 00:08:24包括损失函数的突然上升(loss spikes)
- 00:08:26这些问题可能是由于数据质量问题、模型架构问题或者其他原因引起的
- 00:08:31为了确保模型的稳定性和性能
- 00:08:33训练团队需要密切监控训练过程中的各种指标
- 00:08:37包括损失函数、令牌处理速度等等
- 00:08:39当发现异常的时候
- 00:08:41需要及时采取措施进行调整
- 00:08:43比如,如果发现损失函数突然上升
- 00:08:46可以暂停训练
- 00:08:47检查数据质量,调整超参数等等
- 00:08:49通过不断的调试和优化
- 00:08:51通过不断的调试和优化
- 00:08:53训练团队能够找到最佳的超参数组合
- 00:08:55提高模型的性能
- 00:08:57迪伦接下来提到了YOLO Run的概念
- 00:08:59这个概念来源于一种“一次性投入”的策略
- 00:09:02在小规模实验的阶段
- 00:09:04研究人员会进行各种实验
- 00:09:05比如测试不同的专家数量(4个专家、128个专家)或不同的架构排列方式
- 00:09:12这些实验通常会在少量GPU上进行
- 00:09:14比如3个GPU、数十个GPU或数百个GPU
- 00:09:18然而,当决定进行大规模训练的时候
- 00:09:21所有资源都会被集中使用
- 00:09:22不再进行过多的实验
- 00:09:24而是直接选择认为可行的方案进行投入
- 00:09:27这种策略带来的压力在于
- 00:09:29某些在小规模实验中有效的方案
- 00:09:31可能在大规模训练中会失效
- 00:09:33反之亦然
- 00:09:34因此
- 00:09:34YOLO Run强调在大规模训练时要敢于冒险
- 00:09:37尽管这可能会伴随着一定的风险
- 00:09:40迪伦还指出,在研究领域
- 00:09:42存在两种不同的方法论
- 00:09:43一种是系统化的方法
- 00:09:45通过全面搜索参数空间并进行大量实验
- 00:09:48来找到最佳配置;
- 00:09:50另一种是依靠直觉
- 00:09:51根据数据和经验做出判断
- 00:09:54一些研究人员能够系统地探索整个参数空间
- 00:09:57找到最佳的模型架构;
- 00:09:59而另一些研究人员则凭借直觉
- 00:10:01在短时间内做出决策
- 00:10:02比方说
- 00:10:03选择在后训练阶段进行优化的原因之一是
- 00:10:06训练阶段的GPU成本较低
- 00:10:08可以进行更多的YOLO Run实验
- 00:10:10虽然YOLO Run看起来像是运气
- 00:10:12但是实际上更多的是技能的体现
- 00:10:15在面对训练效果不佳的情况时
- 00:10:17研究人员通常会遵循一套固定的改进策略
- 00:10:20包括数据改进和其他的局部优化
- 00:10:23这些改进最终会积累起来
- 00:10:25让整个模型性能得到显著提升
- 00:10:27尽管搜索空间几乎是无限的
- 00:10:29但是计算资源有限
- 00:10:31因此研究人员必须在短时间内做出最佳决策
- 00:10:34例如,OpenAI在2022年
- 00:10:36就投入大量资源进行GP4模型的训练
- 00:10:39这种做法可以被视为YOLO Run的典型例子
- 00:10:42接下来三人谈到了幻方量化以及DeepSeek算力的猜测
- 00:10:46这部分内容大家可以去看semianalysis那期节目
- 00:10:49内容基本上是一致的
- 00:10:50这里就不再多说了
- 00:10:52谈到未来的AGI
- 00:10:53内森预计会有更大比例的计算资源
- 00:10:56被用于推理和决策过程
- 00:10:58设想一下,一个AGI进入一个房间
- 00:11:00思考如何控制世界
- 00:11:02并且在2.7小时内完成任务
- 00:11:04这将需要极其强大的计算能力
- 00:11:06他还认为,语言模型本身就是一种AGI
- 00:11:09具备广泛的应用价值
- 00:11:10然而
- 00:11:11未来的重点会转向更具有自主性的AI
- 00:11:14这些AI能够执行训练数据中没有包含的任务
- 00:11:17Lex提到Anthropic的CEO Dario曾经使用“超级强大的AI”这个术语来描述这一目标
- 00:11:23认为到2026年
- 00:11:24将出现一种具有显著军事和地缘政治优势的超级强大的AI
- 00:11:29他还在《充满爱意的机器(Machines of
- 00:11:31Loving Grace)》一文中
- 00:11:32认为AI有可能彻底改变生物学等领域
- 00:11:34内森认为
- 00:11:35尽管Dario没有足够的科学背景
- 00:11:37来评估AI在生物学领域的具体影响
- 00:11:39但是可以肯定的是
- 00:11:40AI将在任何计算科学领域加速进步
- 00:11:43DeepSeek R1的发布就是一个很好的例子
- 00:11:46展示了AI在新范式下的巨大进步潜力
- 00:11:49而且这种快速的进步趋势将延续下去
- 00:11:51带来更多的突破
- 00:11:53不过,对于具体的AGI时间线
- 00:11:55内森业表示难以预测
- 00:11:57他认为到2030年之后
- 00:11:59可能会出现具有重大地缘政治影响的AGI
- 00:12:02尽管如此,内森也指出
- 00:12:04AI技术的发展已经对地缘政治产生了影响
- 00:12:07比如,在印度和巴基斯坦的选举中
- 00:12:09人们接收到的AI语音电话
- 00:12:11让他们误以为是在与政治家对话
- 00:12:14此外
- 00:12:14美国最近通过的禁止AI扩散出口管制框架
- 00:12:17限制了对某些国家的云计算和GPU销售
- 00:12:21即使这些国家与地缘政治冲突无关
- 00:12:23这种做法也表明美国对AI技术的担忧
- 00:12:27另外就是英伟达最近大幅削减了今年的H20芯片生产计划
- 00:12:31原本计划生产200万个
- 00:12:33但是最终取消了所有订单
- 00:12:35这个举动表明
- 00:12:36Nvidia可能担心H20芯片会受到进一步的出口限制
- 00:12:40随后三人又聊回了技术方面
- 00:12:42主要集中在推理架构中的关键技术
- 00:12:45首先,在Transformer架构中
- 00:12:47注意力机制是核心的组件之一
- 00:12:49通过计算每个token与其他token之间的相对连接性
- 00:12:52它能够让模型理解上下文中各个单词之间的关系
- 00:12:55而不仅仅是参数本身
- 00:12:57在注意力机制中
- 00:12:58有三个核心组成部分
- 00:13:00分别是查询(Query)、键(Key)和值(Value)
- 00:13:02通常简称为QKV
- 00:13:04这些矩阵在计算过程中相乘
- 00:13:06从而确定每个token与其他token之间的关系
- 00:13:09查询是模型试图获取信息的目标
- 00:13:12键和值则用来检索这些信息
- 00:13:14在自回归模型中
- 00:13:15模型会逐个生成token
- 00:13:17并且在每次生成的时候更新KV缓存
- 00:13:20KV缓存里存的是之前所有token的压缩表示
- 00:13:23而模型在生成下一个token的时候
- 00:13:26会参考这个缓存
- 00:13:27应该说
- 00:13:28KV缓存的使用极大地提高了推理效率
- 00:13:30因为它避免了重复计算
- 00:13:32不过
- 00:13:33注意力机制也存在一个显著的缺点
- 00:13:35那就是它的内存成本与上下文长度成正比
- 00:13:39这意味着,随着上下文长度的增加
- 00:13:41内存需求也会迅速增长
- 00:13:43这对于大规模推理服务构成了挑战
- 00:13:46对于长序列上下文
- 00:13:47内森提到了一些新的注意力机制
- 00:13:49可以通过优化内存使用
- 00:13:51来提高模型处理长序列的能力
- 00:13:53比方说Gemini就拥有业界最长的上下文长度
- 00:13:56高达200万token
- 00:13:58这主要得益于Google在TPU架构上的优化
- 00:14:01对于输入和输出Token的价格为什么存在差异
- 00:14:04内森指出
- 00:14:05这主要是因为生成Token的过程不是并行的
- 00:14:08具体来说,输入一个查询的时候
- 00:14:10可以并行计算所有Token的KV缓存
- 00:14:13而生成一个Token的时候
- 00:14:14必须顺序地读取整个模型和KV缓存
- 00:14:17计算下一个Token
- 00:14:18并将新生成的Token及其KV缓存
- 00:14:21追加到缓存中
- 00:14:22因此,生成Token的计算复杂度
- 00:14:24要远高于输入Token
- 00:14:26通常,API提供商对输入Token的收费
- 00:14:29大约为输出Token的四分之一
- 00:14:31就是因为输入Token可以批量处理
- 00:14:33而输出Token则需要逐个生成
- 00:14:36而DeepSeek R1模型在推理成本方面表现出色
- 00:14:39每百万输出Token的成本仅为2美元
- 00:14:42而OpenAI的GPT-4则高达60美元
- 00:14:45这种成本上的差异
- 00:14:46主要源于DeepSeek在模型架构上的创新
- 00:14:49包括通过MLA注意力机制
- 00:14:51将内存使用节省了80%到90%,
- 00:14:54以及使用局部-全局注意力和滑动窗口机制等其他优化技术
- 00:14:59对于各个模型的表现
- 00:15:00Lex做了一个简单的哲学问题测试
- 00:15:02他自己认为
- 00:15:03o1 Pro的表现最好,也最稳定
- 00:15:06接下来是DeepSeek R1
- 00:15:07Gemini Flash 2.0排在第三
- 00:15:09而o3 mini则排在最后
- 00:15:11尽管o3 mini在头脑风暴中的表现要优于R1
- 00:15:15但是在开放性哲学问题上的表现较差
- 00:15:17这其中
- 00:15:18DeepSeek R1展示了完整的思考链
- 00:15:21这种透明的思考过程
- 00:15:22对于欣赏智能和推理过程的人来说
- 00:15:25具有极大的吸引力
- 00:15:26通过观察这种思考路径
- 00:15:28可以看到智能系统的非线性思维过程
- 00:15:30类似于詹姆斯·乔伊斯的《尤利塞斯》或《芬尼根的守灵夜》中的思维过程
- 00:15:34夜中的思维过程
- 00:15:35关于Nvidia股票的下跌
- 00:15:36Lex提到主要是由于DeepSeek的发布
- 00:15:39引发了市场对Nvidia GPU需求减少的担忧
- 00:15:42不过,这种担忧可能被夸大了
- 00:15:44Nvidia GPU的需求仍然很高
- 00:15:46尤其是在数据中心领域
- 00:15:48而且AI的进步
- 00:15:49可能还会进一步推动对高性能计算的需求
- 00:15:52这将有利于Nvidia等公司
- 00:15:54接下来一大块的内容是讨论训练集训与数据中心的建设
- 00:15:58迪伦指出
- 00:15:59数据中心的电力消耗在过去几十年中逐渐增加
- 00:16:02预计到2028年或2030年
- 00:16:05这一比例可能达到10%。
- 00:16:07这个数字对于AI公司来说显得尤为重要
- 00:16:10Anthropic和OpenAI等公司认为
- 00:16:12现有的电力消耗水平远远不够
- 00:16:15未来需要更多的电力支持
- 00:16:17集群建设主要分为两种类型
- 00:16:19分别是分布式集群和集中式集群
- 00:16:22分布式集群在全球范围内或者美国境内广泛分布
- 00:16:26主要用于处理推理任务
- 00:16:27这种模式在AI服务中非常常见
- 00:16:30比如Word Copilot、Apple Intelligence等等
- 00:16:33而集中式集群则主要用来训练大型模型
- 00:16:36以GPT-3和GPT-4为例
- 00:16:38GPT-4使用了20000块A100 GPU进行训练
- 00:16:41耗电量达到了15到20兆瓦
- 00:16:44另外,随着技术的进步
- 00:16:45GPU的功耗也在不断增加
- 00:16:47比如H100 GPU的功耗从400瓦提升到了700瓦
- 00:16:52加上其他硬件设备
- 00:16:53每块GPU的总功耗大约为1200到1400瓦
- 00:16:56因此
- 00:16:57大规模集群的建设不仅需要大量的电力支持
- 00:17:00还需要高效的冷却系统和强大的网络连接
- 00:17:03在数据中心的设计和扩展方面
- 00:17:06迪伦举了几个例子
- 00:17:07比如Meta最初的数据中心设计是呈H型的
- 00:17:11通过连接多个这样的模块来实现扩展
- 00:17:13起初,Meta部署了16000块GPU
- 00:17:16最终扩展到24000块GPU
- 00:17:19不过,由于GPU的高故障率
- 00:17:21只有大约16000块GPU用于实际的训练
- 00:17:23其余作为备用
- 00:17:25随着时间的推移
- 00:17:26Meta的数据中心规模不断扩大
- 00:17:28目前LLaMA 4的训练使用了大约100000块GPU
- 00:17:32计划扩展到128000块GPU
- 00:17:34考虑到每块GPU大约消耗1400瓦的电力
- 00:17:37这意味着数据中心的总电力消耗
- 00:17:40从2022年的大约15兆瓦
- 00:17:42增加到2024年的大约150兆瓦
- 00:17:45实现了近10倍的增长
- 00:17:46Elon Musk的XAI
- 00:17:48在数据中心建设方面也展现了极高的热情和决心
- 00:17:52XAI在2022年开始建设数据中心
- 00:17:54并且迅速成为全球最大的GPU集群
- 00:17:57规模达到200000块GPU
- 00:17:59为了支持如此庞大的计算需求
- 00:18:01XAI在田纳西州孟菲斯市
- 00:18:03购买了一座废弃的电器工厂
- 00:18:05并且进行了大规模的基础设施改造
- 00:18:08其中包括升级变电站、部署移动电源生成系统、连接天然气管道
- 00:18:13以及建设天然气发电厂
- 00:18:15此外
- 00:18:15XAI还引入了特斯拉的Megapack电池储能系统
- 00:18:18来确保电力供应的稳定性
- 00:18:20并且使用工业级冷水机来冷却服务器
- 00:18:24而相比之下
- 00:18:25OpenAI在亚利桑那州和德克萨斯州阿本纳建设的数据中心计划
- 00:18:28更是令人震惊
- 00:18:30据OpenAI官方宣布
- 00:18:31这个数据中心的总电力消耗将达到2200兆瓦
- 00:18:35其中大约1800兆瓦会直接用于芯片运算
- 00:18:38这个规模相当于一个小城市的电力消耗
- 00:18:41足以支持大规模的模型预训练和后训练任务
- 00:18:44OpenAI的Stargate项目
- 00:18:45正是想通过多吉瓦级的数据中心
- 00:18:48来加速AI模型的发展
- 00:18:50特别是在强化学习、计算机视觉等前沿领域
- 00:18:53迪伦还特别提到了一个值得大家注意的点
- 00:18:56那就是被称为幕后英雄的冷却和电气系统
- 00:18:59他举了一个例子
- 00:19:00那就是在训练过程中
- 00:19:02计算和权重交换之间的电力消耗差异极大
- 00:19:05在模型训练的每一步中
- 00:19:07计算任务会消耗大量的电力
- 00:19:10如果计算和通信不能完美重叠
- 00:19:13GPU可能会进入空闲状态
- 00:19:15导致电力消耗出现尖峰
- 00:19:17这种尖峰可能会导致数据中心的电力设施过载
- 00:19:20甚至引发故障
- 00:19:22为了解决这个问题
- 00:19:23Meta在PyTorch中添加了一个名为`PowerPlant no blowup`的操作符
- 00:19:27这个操作符能在权重交换期间
- 00:19:30让GPU计算一些虚拟数据
- 00:19:32从而避免电力消耗的剧烈波动
- 00:19:34而特斯拉则采用了一种不同的方法
- 00:19:36即使用大量的Tesla Mega Packs来解决电力的管理问题
- 00:19:40虽然每家公司都有自己的解决方案
- 00:19:43但是Meta的做法是公开且透明的
- 00:19:45而且可以通过简单的操作符调整
- 00:19:47来优化电力使用
- 00:19:49此外,迪伦指出
- 00:19:50传统的数据中心冷却系统主要依赖于空气冷却
- 00:19:53包括金属散热器、热管和风扇等组件
- 00:19:57不过,随着计算能力的提升
- 00:19:58传统的空气冷却系统已经无法满足需求
- 00:20:01谷歌的TPU已经使用了多年的水冷系统
- 00:20:04但是对于GPU
- 00:20:06大规模的水冷系统还没有普及
- 00:20:08Nvidia已经在最新一代的高端GPU中
- 00:20:10强制要求使用水冷系统
- 00:20:12特斯拉则在现有的GPU中采用了大规模水冷系统
- 00:20:16比如在Memphis数据中心
- 00:20:18就有90个大型水冷机
- 00:20:20这种冷却系统不仅能提高冷却效率
- 00:20:22还能提高数据中心的整体性能
- 00:20:25在集群规模竞赛中
- 00:20:26特斯拉目前处于领先地位
- 00:20:28Memphis数据中心拥有200000个GPU
- 00:20:30其中包括100000个H100和100000个H20
- 00:20:33Meta和OpenAI紧随其后
- 00:20:35分别拥有128000和100000个GPU
- 00:20:38虽然其他公司拥有更多的GPU
- 00:20:40但是这些GPU通常分散在不同的地区
- 00:20:43因此,特斯拉的单体集群规模
- 00:20:45在当前竞赛中占据优势
- 00:20:47预计到今年年底
- 00:20:49Anthropic和Amazon将建设一个包含400
- 00:20:51000个Trainium 2芯片的集群
- 00:20:54Meta和OpenAI也有计划在未来几年内
- 00:20:56将GPU集群规模扩大到500000到700000个
- 00:21:00这些大规模的GPU集群主要用来训练预训练任务
- 00:21:03不过,随着现有数据集的趋于饱和
- 00:21:05预训练阶段的扩展空间有限
- 00:21:07相比之下
- 00:21:08后训练阶段将消耗更多的计算资源
- 00:21:11这些任务包括模型的自我训练、模拟环境中的任务执行
- 00:21:15以及复杂的推理任务等等
- 00:21:17传统的FLOPS指标可能已经不再完全适用于这些任务
- 00:21:20因此未来可能会出现新的性能评估指标
- 00:21:23来更好地反映这些复杂任务的计算需求
- 00:21:26对于目前的几家云计算大厂
- 00:21:29迪伦指出
- 00:21:30Google Cloud虽然在某些方面表现强劲
- 00:21:32但是在整体市场份额上
- 00:21:34Google Cloud排名第三
- 00:21:35微软排名第二,亚马逊则遥遥领先
- 00:21:38微软看似市场份额较大
- 00:21:40但是它主要是在企业级许可证(比如Microsoft Office 365)中占有很大比例
- 00:21:45实际上差距更大
- 00:21:47亚马逊之所以领先
- 00:21:48是因为使用AWS更为便捷
- 00:21:50而且在许多情况下更为经济实惠
- 00:21:53此外,AWS是最早进入市场的
- 00:21:55一旦用户开始使用,切换成本极高
- 00:21:58而且存在高额的转换费用
- 00:22:01AWS为亚马逊贡献了超过80%的利润
- 00:22:03甚至可能超过90%,
- 00:22:05盈利能力惊人
- 00:22:07尽管AWS的用户界面仍然显得有些笨拙
- 00:22:11亚马逊的服务质量更优
- 00:22:13自主研发的硬件更是降低了成本结构
- 00:22:16包括存储、CPU和网络等传统的云服务
- 00:22:19在数据库领域
- 00:22:20亚马逊的五大收入产品中
- 00:22:22有四个与数据库相关,比如Redshift
- 00:22:25这进一步巩固了它的市场地位
- 00:22:27谷歌的硬件团队虽然拥有TPU等优秀产品
- 00:22:30但是这些硬件主要用在内部服务
- 00:22:33而非面向外部客户
- 00:22:35相比之下,Nvidia从成立之初
- 00:22:37就专注在为外部客户提供高性能的计算解决方案
- 00:22:41在《英伟达之道》一书中
- 00:22:43就阐述了Nvidia的整个企业文化
- 00:22:45其实都是围绕这个目标构建的
- 00:22:47Nvidia通过优化CUDA软件库
- 00:22:49迅速适应高性能计算的新需求
- 00:22:52这与谷歌的服务模式截然不同
- 00:22:54在硬件领域
- 00:22:55Nvidia的优势难以被Intel和AMD等竞争对手超越
- 00:22:59尽管AMD和Intel的硬件在某些方面优于Nvidia
- 00:23:02但是软件支持相对不足
- 00:23:04尤其是对于开源库的支持
- 00:23:06Intel目前面临严峻的挑战
- 00:23:08市场份额不断下滑
- 00:23:10尤其是在服务器和PC市场
- 00:23:12苹果的M1芯片、Nvidia和Qualcomm的PC芯片
- 00:23:15以及各个超大规模数据中心自研的ARM服务器芯片
- 00:23:18都在侵蚀Intel的市场份额
- 00:23:20另外,Intel在AI芯片领域进展缓慢
- 00:23:23并且在移动市场错失良机
- 00:23:25导致它失去了技术领先地位
- 00:23:27尽管Intel正在努力追赶
- 00:23:29但是前景仍不明朗
- 00:23:31迪伦认为,在未来的AI竞赛中
- 00:23:34单一公司独占鳌头的可能性比较小
- 00:23:36许多公司将会在AI的不同领域受益
- 00:23:39不仅局限于训练最佳的模型
- 00:23:41像Meta就可以通过其庞大的用户基础和多样化的产品线
- 00:23:45从AI中获得巨大的收益
- 00:23:47对于OpenAI来说
- 00:23:48尽管在大语言模型领域占据优势
- 00:23:50但是在商业模式面临很大挑战
- 00:23:53ChatGPT虽然价值巨大
- 00:23:56未来
- 00:23:56OpenAI还需探索其他的应用领域
- 00:23:59比如推理、代码生成和机器人等等
- 00:24:01来实现可持续发展
- 00:24:03总的来说
- 00:24:04像谷歌和Meta这些公司拥有更广泛的业务组合
- 00:24:08可以从AI中获得多重收益
- 00:24:10而像OpenAI和Anthropic这些专注于先进模型的公司
- 00:24:13必须不断创新
- 00:24:14才能保持竞争力
- 00:24:16访谈接近尾声,在有关Agent的话题上
- 00:24:19迪伦认为,目前刚刚进入推理阶段
- 00:24:22可能还需要一两年,然后才是Agent
- 00:24:25虽然人们现在可以尝试Agent的能力
- 00:24:27让代理持续几分钟甚至几小时
- 00:24:30自主地执行任务
- 00:24:31但是最大的问题是
- 00:24:33就像制造业中的六西格玛一样
- 00:24:35每增加一个步骤
- 00:24:36即使是最先进的系统也会降低整体的性能
- 00:24:39即使最好的语言模型在基准测试中表现良好
- 00:24:43但是它们也并不是100%准确的
- 00:24:45因为存在噪声
- 00:24:46因此
- 00:24:47如何达到足够的可靠性仍然是一个挑战
- 00:24:50这与自动驾驶类似
- 00:24:51而足够的可靠性
- 00:24:53在一个开放、混乱的网络环境中是不可能实现的
- 00:24:56就像在互联网历史上
- 00:24:58航空公司和酒店虽然有很强的动力让自己的网站工作良好
- 00:25:02但是预订机票的界面通常非常糟糕
- 00:25:05想象一下
- 00:25:06AI Agent能否处理这些网站
- 00:25:08就连人类用户都经常在预订机票时感到困惑
- 00:25:12如果航空公司能够把网站优化的更易于AI处理
- 00:25:15那么这将会带来显著的经济利益
- 00:25:18在编程方面
- 00:25:19AI Agent已经取得了显著的成果
- 00:25:21比如代码补全、函数生成和代码审查等功能
- 00:25:24已经得到了广泛应用
- 00:25:26软件工程Agent不仅可以进行单元测试或者编译
- 00:25:30还可以检查整个代码库
- 00:25:31这是普通工程师无法做到的
- 00:25:34因此,软件工程的成本将大幅下降
- 00:25:37这将导致不同的市场,比方在中国
- 00:25:40由于软件工程师的成本较低
- 00:25:42企业更倾向于构建自己的技术栈
- 00:25:44而不是使用平台SaaS
- 00:25:46因此
- 00:25:47编程的大语言模型在中国的采用程度较低
- 00:25:50因为工程师成本较低
- 00:25:52但是
- 00:25:52当每个公司都能以低成本和快速的方式
- 00:25:55构建自己的业务逻辑时
- 00:25:57将不会再选择使用平台SaaS
- 00:25:59而是会选择构建定制化的解决方案
- 00:26:01从而提高效率
- 00:26:03所以说,软件工程领域的进步
- 00:26:05将会导致软件工程师的成本急剧下降
- 00:26:08不过
- 00:26:08这并不意味着软件工程师会突然失业
- 00:26:11而是工作性质会发生变化
- 00:26:13人类将在AI系统中扮演更重要的角色
- 00:26:16人类需要监督和修正代码,进行调试
- 00:26:19并且设计最佳的解决方案
- 00:26:21AI可以来提供多种选项
- 00:26:23但是人类需要判断哪个更好
- 00:26:25因此
- 00:26:26软件工程师需要具备高水平的编程技能
- 00:26:29并且成为某个领域的专家
- 00:26:30最后
- 00:26:31内森还介绍了一下自己Ai2实验室的Tulu开源模型
- 00:26:34并且跟DeepSeek V3做了一些对比
- 00:26:37在平均基准测试上略高一分
- 00:26:40具体内容我们就不多展开说了
- 00:26:42对这个模型有兴趣的观众
- 00:26:43可以去看一下他们的官网
- 00:26:45好了
- 00:26:45以上就是Lex Fridman这次5小时播客的主要内容了
- 00:26:49其实很多内容在我们频道的很多节目中
- 00:26:52都陆陆续续覆盖到了
- 00:26:53这次三个人相当于做了一个通盘的回顾和总结
- 00:26:56不得不说
- 00:26:57Lex的节目真是令人看得发狂
- 00:26:59希望大飞这期节目能帮大家节省下几个小时的时间
- 00:27:03其间总结的比较仓促,难免会有错误
- 00:27:06欢迎大家指出,我及时改正
- 00:27:08感谢大家的观看,我们下期再见
Tags
- DeepSeek
- AI生态系统
- 模型训练
- 推理能力
- 开放权重
- 数据隐私
- 电力消耗
- 数据中心
- AGI
- Nvidia