DeepSeek模型的主要特性是什么？

DeepSeek V3是通用聊天模型，而R1则专注推理能力，能生成详细思考过程适用于复杂任务。

开放权重模型是否安全？

模型本身不窃取用户数据，但使用时需信任托管方，用户可选择本地运行以控制数据。

DeepSeek R1的推理特点有哪些？

DeepSeek R1在生成回答前先输出思考过程，并通过特殊Token标记最终答案。

训练大型AI模型面临哪些挑战？

包括损失函数的不稳定性、计算资源的不足和电力消耗的增长问题。

数据中心如何应对高电力消耗问题？

需要高效的冷却系统和强大的网络连接以支持计算需求。

【访谈】Lex Fridman最新五小时访谈精华版 | DeepSeek | 后训练 | 开放权重 | 技术改进 | YOLO Run | AGI | 注意力 | 英伟达 | 数据中心 | Agent

00:27:10

https://www.youtube.com/watch?v=RbGX-FQNYQ0

Summary

TLDR在这场长达5小时的对话中，Lex Fridman和AI领域的专家们深入探讨了DeepSeek模型的最新进展，包括V3和R1的开发与应用。这些模型在训练阶段的策略、开放性与隐私安全性、推理能力的运行机制等方面进行了详细分析。对话还涉及两者在各自应用领域的表现及成本效益分析，以及对未来人工智能技术进展和AGI（通用人工智能）的预测。整个过程对AI技术的未来方向和产业竞争格局提供了深刻见解。

Takeaways

🧠 DeepSeek V3和R1模型的不同应用场景
🛡️ 开放权重模型和数据隐私的关系
⚙️ R1的双阶段推理过程
📉 大型模型训练面临的电力消耗挑战
🏢 数据中心冷却系统的重要性
🌏 全球AI竞赛的未来展望
💡 DeepSeek模型的训练策略分析
📊 模型性能基准测试对比
🔌 YOLO Run策略的使用价值
📈 AGI技术的潜在影响

Timeline

00:00:00 - 00:05:00
Lex Fridman与Dylan Patel和Nathan Lambert进行了长达五个小时的深入对话，涵盖了DeepSeek的技术突破和全球AI生态的未来。重点介绍了DeepSeek V3和R1模型的发布及其特性，V3专注于通用聊天，R1则优化了推理能力。
00:05:00 - 00:10:00
深入讨论了DeepSeek模型的训练过程，包括预训练和后期训练方法，介绍了各种优化技术如指令调优和强化学习调优，并阐明了两者在推理能力和性能上的区别。
00:10:00 - 00:15:00
三位嘉宾探讨了模型开放权重及其数据隐私安全问题，强调用户在使用模型时需谨慎选择托管方，并详细描述了DeepSeek R1的两阶段推理生成过程的独特之处。
00:15:00 - 00:20:00
谈到DeepSeek R1较其他模型的显著优势，如混合专家模型和多层低秩注意力技术，通过高效的计算实现了在推理效率和训练成本上的创新。
00:20:00 - 00:27:10
最后，嘉宾们分析了未来AI的趋势，包括AGI的发展、数据中心建设与环境影响，以及软件工程领域AI带来的变革，预示着技术竞争的不断演进。

Mind Map

Video Q&A

DeepSeek模型的主要特性是什么？
DeepSeek V3是通用聊天模型，而R1则专注推理能力，能生成详细思考过程适用于复杂任务。
开放权重模型是否安全？
模型本身不窃取用户数据，但使用时需信任托管方，用户可选择本地运行以控制数据。
DeepSeek R1的推理特点有哪些？
DeepSeek R1在生成回答前先输出思考过程，并通过特殊Token标记最终答案。
训练大型AI模型面临哪些挑战？
包括损失函数的不稳定性、计算资源的不足和电力消耗的增长问题。
数据中心如何应对高电力消耗问题？
需要高效的冷却系统和强大的网络连接以支持计算需求。

View more video summaries

Get instant access to free YouTube video summaries powered by AI!

Subtitles

zh-Hans

Auto Scroll:

00:00:00
大家好，这里是最佳拍档，我是大飞
00:00:03
昨天
00:00:03
Lex Fridman与SemiAnalysis的创始人迪伦·帕特尔Dylan Patel和Allen AI的内森·兰伯特Nathan Lambert
00:00:09
进行了一场深度对话
00:00:10
时间长达疯狂的5个小时
00:00:13
对话呢涵盖了DeepSeek的技术突破
00:00:15
中国AI生态系统的崛起
00:00:17
以及全球AI竞赛的未来格局等等
00:00:20
信息量呢巨大
00:00:21
观点呢也非常的犀利
00:00:23
尤其是3米analysis
00:00:24
前两天发表的关于DeepSeek的文章
00:00:27
信息量巨大
00:00:28
今天大飞就来为大家解读一下这次对话的重点
00:00:32
提醒一下，本视频时间也很长
00:00:34
时间关系也没有做后期
00:00:36
建议大家准备好零食饮料
00:00:38
或者在干家务的时候顺便听一下
00:00:41
如果能有不错的催眠效果
00:00:43
那正是大飞我的本意
00:00:45
首先Lex大概介绍了一下DeepSeek V3和DeepSeek R1
00:00:48
这个我相信大家应该都已经很熟悉了
00:00:51
所以我尽量简单过这部分
00:00:53
2023年12月26日
00:00:55
DeepSeek 发布了V3模型
00:00:56
这是一个混合专家Transformer模型
00:00:59
用户可以在互联网上公开获取模型的权重参数
00:01:02
遵循MIT许可证
00:01:04
随后在2024年1月20日
00:01:06
DeepSeek 又发布了R1
00:01:07
这是一个推理模型
00:01:09
两个模型基于相同的预训练基础模型
00:01:11
但是在后续的训练步骤上有所不同
00:01:14
导致了它们在功能和应用场景上的差异
00:01:16
除了开放权重以外
00:01:18
DeepSeek还提供了详细的训练报告和代码示例
00:01:21
有助于其他研究团队进行复现和改进
00:01:24
接下来
00:01:24
对话重点围绕DeepSeek的这两个模型展开
00:01:28
首先是模型的训练阶段
00:01:29
分为预训练和后训练两个阶段
00:01:32
预训练阶段主要通过自动回归预测
00:01:34
来预测文本序列中的下一个Token
00:01:36
训练数据通常来自大规模的互联网文本
00:01:39
比如Common Crawl等公开数据集
00:01:42
预训练完成后，模型进入后训练阶段
00:01:44
通过不同的训练方法来优化模型的特定行为
00:01:48
常见的后训练方法包括指令调优、偏好调优和强化学习调优
00:01:52
其中，指令调优是一种监督学习方法
00:01:55
通过在训练数据中添加指令格式
00:01:58
来指导模型生成特定格式的回答
00:02:00
这种方法通常用来生成结构化的文本
00:02:03
比如问答对、代码示例等等
00:02:05
像DeepSeek V3就是用这种方法进行的后训练
00:02:08
而偏好调优是通过收集人类对不同回答的偏好
00:02:12
来优化模型的输出质量
00:02:14
这种方法通常涉及到收集人类对多个回答的偏好评分
00:02:18
然后使用这些评分来训练一个奖励模型
00:02:20
指导模型生成更符合人类偏好的回答
00:02:24
强化学习调优则是一种通过奖励机制来优化模型的方法
00:02:28
这种方法通过在数学、编程等特定领域中
00:02:31
设置奖励函数
00:02:32
让模型通过试错来学习生成正确的答案
00:02:36
DeepSeek R1就是用这种方法进行的后训练
00:02:39
在性能和应用场景上
00:02:40
DeepSeek V3和R1有所不同
00:02:43
DeepSeek V3是一个通用的聊天模型
00:02:45
能够生成高质量的、格式化的回答
00:02:48
适用于各种应用场景
00:02:49
比如问答系统、编程助手等
00:02:52
DeepSeek R1则是一个专注于推理能力的模型
00:02:55
能够生成详细的推理过程
00:02:57
适用于需要复杂推理的任务
00:02:59
比如数学问题求解、代码调试等
00:03:02
根据基准测试结果
00:03:03
DeepSeek V3的性能与OpenAI GPT-4和Llama 405B相当
00:03:08
而DeepSeek R1在推理任务上的表现优于其他模型
00:03:12
此外，DeepSeek V3和R1都开放了权重
00:03:14
用户可以自由地使用和修改模型
00:03:17
无需担心数据隐私和商业限制
00:03:20
接下来
00:03:20
三人就开放权重的数据隐私和安全性展开了讨论
00:03:24
虽然模型本身不会窃取用户的数据
00:03:27
但是用户在使用这些模型的时候
00:03:29
需要信任模型的托管方，当然
00:03:32
用户也可以选择在本地运行模型
00:03:34
从而完全控制自己的数据
00:03:36
不过，如果用户通过API访问模型服务
00:03:38
数据就会被托管方处理和存储
00:03:41
也就存在数据泄露和滥用的风险
00:03:43
因此
00:03:44
选择合适的模型托管方和使用方式
00:03:47
对于保护用户数据隐私至关重要
00:03:50
由于R1是一个推理模型
00:03:52
所以它在生成回复的时候
00:03:53
会先输出一个详细的思考过程
00:03:56
然后再给出最终的答案
00:03:58
这个思考过程通常会表现为一长串的Token
00:04:01
模型会逐步解释问题
00:04:03
并且分解成多个步骤
00:04:04
比如
00:04:05
模型会先说明用户的问题是什么
00:04:07
然后列出解决问题所需要的步骤
00:04:10
这些步骤会快速地生成并显示在屏幕上
00:04:13
最终，模型会切换到一个不同的语气
00:04:16
总结其思考过程并给出最终答案
00:04:19
这种两阶段的生成过程
00:04:20
就是DeepSeek R1的一个显著特点
00:04:23
在技术实现上
00:04:24
DeepSeek R1的模型被训练成能够自动进行这种两阶段的推理
00:04:29
具体来说，模型在生成思考过程后
00:04:31
会生成一个特殊的Token来标记答案的开始
00:04:34
这个Token通常对用户来说是不可见的
00:04:37
通过这种方式
00:04:38
模型能够独立地完成从推理到给出答案的整个过程
00:04:42
相比之下
00:04:43
像OpenAI这样的公司可能会通过用户界面
00:04:46
将这个过程分解成多个部分
00:04:48
比如“问题分解”、“计算”、“结果清理”等等
00:04:51
然后逐步展示给用户
00:04:53
内森以一个DeepSeek R1推理的例子来说明这个过程
00:04:56
假设用户问了一个关于人类独特性的哲学问题
00:04:59
模型会首先详细地分解这个问题
00:05:02
然后逐步推理出答案
00:05:03
例如
00:05:04
模型可能会提到人类具有独特的元情绪
00:05:07
也就是对于自身情绪的感受
00:05:09
这种递归的情绪层
00:05:11
使得人类的行为动机更加复杂
00:05:13
接着
00:05:14
模型会进一步探讨人类同时持有矛盾信念的能力
00:05:17
即认知失调
00:05:19
这种能力可能有助于灵活适应环境
00:05:21
最终，模型给出的答案是
00:05:23
人类通过集体假装抽象规则
00:05:26
比如金钱、法律和权利的存在
00:05:28
将自私的欲望转化为合作系统
00:05:31
从而将冲突转化为社会发展的动力
00:05:33
这个答案不仅深刻
00:05:34
而且具有一定的启发性
00:05:37
在训练和推理效率方面
00:05:38
DeepSeek R1也做出了显著的改进
00:05:41
主要的技术包括混合专家模型MoE和多层低秩注意力MLA
00:05:46
混合专家模型是一种将模型参数
00:05:48
分成多个子模型的技术
00:05:50
每个子模型，也称为专家模型
00:05:52
只会在特定的任务中被激活
00:05:54
这种方法大大减少了训练和推理时需要计算的参数数量
00:05:58
从而降低了计算成本
00:05:59
比方说
00:06:00
DeepSeek R1虽然有6000多亿个参数
00:06:02
但是在训练和推理的时候
00:06:04
每次只会激活大约370亿个参数
00:06:07
相比之下
00:06:08
Llama 405B模型需要激活全部4050亿个参数
00:06:12
计算成本显著更高
00:06:14
DeepSeek在混合专家模型中还引入了一种新的路由机制
00:06:18
传统方法中
00:06:18
混合专家模型可能会依赖辅助损失（auxiliary loss）
00:06:21
来确保所有专家在训练过程中都被使用
00:06:24
辅助损失的作用是在训练时平衡不同专家的使用频率
00:06:28
防止模型只依赖少数几个专家进行预测
00:06:31
不过
00:06:32
这种方法可能会引入额外的偏差
00:06:35
限制模型的学习能力
00:06:36
但是DeepSeek采取了一种不同的方法
00:06:39
在每个批次训练结束后
00:06:41
模型会更新一个额外的参数
00:06:43
从而确保后续批次中所有专家的使用频率更加均衡
00:06:47
这种方法避免了辅助损失可能引入的偏差
00:06:50
同时确保了所有专家的有效利用
00:06:52
另外
00:06:53
多层低秩注意力是一种优化注意力机制的技术
00:06:56
通过使用低秩近似
00:06:57
来减少内存使用和计算复杂度
00:07:00
这种方法在训练和推理过程中能带来显著的效率提升
00:07:04
此外
00:07:04
DeepSeek R1还对底层通信机制进行了优化
00:07:08
由于训练过程中涉及大量的GPU通信
00:07:11
DeepSeek R1通过自定义通信调度策略
00:07:14
进一步提高了效率
00:07:15
具体来说
00:07:16
DeepSeek R1直接在GPU的汇编语言PTX层面进行编程
00:07:20
优化了不同核心之间的通信
00:07:22
从而实现了更高的效率
00:07:24
这些技术的结合
00:07:25
使得DeepSeek R1在保持高性能的同时
00:07:28
大幅降低了训练和推理的成本
00:07:30
例如，与Llama 405B相比
00:07:32
DeepSeek R1在训练时可以节省大约30%的计算资源
00:07:36
这种高效的训练和推理能力
00:07:38
使得DeepSeek R1能够在资源有限的情况下
00:07:41
仍然保持较高的性能水平
00:07:43
内森提到
00:07:44
在The Bitter Lesson苦涩的教训中
00:07:46
就强调了在训练过程中
00:07:47
要避免引入过多的人类先验知识
00:07:50
让模型能够自主学习的重要性
00:07:52
以及通过引入简单的、可扩展的解决方案
00:07:55
而不是复杂的、特定于问题的技巧
00:07:58
模型能够在更大的问题上取得更好的表现
00:08:01
而DeepSeek的创新正是这一理念的体现
00:08:04
通过引入新的路由机制
00:08:06
DeepSeek避免了辅助损失可能引入的偏差
00:08:08
同时确保了所有专家的有效利用
00:08:11
这种简单而有效的解决方案
00:08:13
使得模型在保持高效的同时
00:08:15
取得了显著的性能提升
00:08:17
此外，训练大型模型
00:08:19
本身也是一个复杂且充满挑战的过程
00:08:21
在训练过程中
00:08:22
模型可能会遇到各种问题
00:08:24
包括损失函数的突然上升（loss spikes）
00:08:26
这些问题可能是由于数据质量问题、模型架构问题或者其他原因引起的
00:08:31
为了确保模型的稳定性和性能
00:08:33
训练团队需要密切监控训练过程中的各种指标
00:08:37
包括损失函数、令牌处理速度等等
00:08:39
当发现异常的时候
00:08:41
需要及时采取措施进行调整
00:08:43
比如，如果发现损失函数突然上升
00:08:46
可以暂停训练
00:08:47
检查数据质量，调整超参数等等
00:08:49
通过不断的调试和优化
00:08:51
通过不断的调试和优化
00:08:53
训练团队能够找到最佳的超参数组合
00:08:55
提高模型的性能
00:08:57
迪伦接下来提到了YOLO Run的概念
00:08:59
这个概念来源于一种“一次性投入”的策略
00:09:02
在小规模实验的阶段
00:09:04
研究人员会进行各种实验
00:09:05
比如测试不同的专家数量（4个专家、128个专家）或不同的架构排列方式
00:09:12
这些实验通常会在少量GPU上进行
00:09:14
比如3个GPU、数十个GPU或数百个GPU
00:09:18
然而，当决定进行大规模训练的时候
00:09:21
所有资源都会被集中使用
00:09:22
不再进行过多的实验
00:09:24
而是直接选择认为可行的方案进行投入
00:09:27
这种策略带来的压力在于
00:09:29
某些在小规模实验中有效的方案
00:09:31
可能在大规模训练中会失效
00:09:33
反之亦然
00:09:34
因此
00:09:34
YOLO Run强调在大规模训练时要敢于冒险
00:09:37
尽管这可能会伴随着一定的风险
00:09:40
迪伦还指出，在研究领域
00:09:42
存在两种不同的方法论
00:09:43
一种是系统化的方法
00:09:45
通过全面搜索参数空间并进行大量实验
00:09:48
来找到最佳配置；
00:09:50
另一种是依靠直觉
00:09:51
根据数据和经验做出判断
00:09:54
一些研究人员能够系统地探索整个参数空间
00:09:57
找到最佳的模型架构；
00:09:59
而另一些研究人员则凭借直觉
00:10:01
在短时间内做出决策
00:10:02
比方说
00:10:03
选择在后训练阶段进行优化的原因之一是
00:10:06
训练阶段的GPU成本较低
00:10:08
可以进行更多的YOLO Run实验
00:10:10
虽然YOLO Run看起来像是运气
00:10:12
但是实际上更多的是技能的体现
00:10:15
在面对训练效果不佳的情况时
00:10:17
研究人员通常会遵循一套固定的改进策略
00:10:20
包括数据改进和其他的局部优化
00:10:23
这些改进最终会积累起来
00:10:25
让整个模型性能得到显著提升
00:10:27
尽管搜索空间几乎是无限的
00:10:29
但是计算资源有限
00:10:31
因此研究人员必须在短时间内做出最佳决策
00:10:34
例如，OpenAI在2022年
00:10:36
就投入大量资源进行GP4模型的训练
00:10:39
这种做法可以被视为YOLO Run的典型例子
00:10:42
接下来三人谈到了幻方量化以及DeepSeek算力的猜测
00:10:46
这部分内容大家可以去看semianalysis那期节目
00:10:49
内容基本上是一致的
00:10:50
这里就不再多说了
00:10:52
谈到未来的AGI
00:10:53
内森预计会有更大比例的计算资源
00:10:56
被用于推理和决策过程
00:10:58
设想一下，一个AGI进入一个房间
00:11:00
思考如何控制世界
00:11:02
并且在2.7小时内完成任务
00:11:04
这将需要极其强大的计算能力
00:11:06
他还认为，语言模型本身就是一种AGI
00:11:09
具备广泛的应用价值
00:11:10
然而
00:11:11
未来的重点会转向更具有自主性的AI
00:11:14
这些AI能够执行训练数据中没有包含的任务
00:11:17
Lex提到Anthropic的CEO Dario曾经使用“超级强大的AI”这个术语来描述这一目标
00:11:23
认为到2026年
00:11:24
将出现一种具有显著军事和地缘政治优势的超级强大的AI
00:11:29
他还在《充满爱意的机器（Machines of
00:11:31
Loving Grace）》一文中
00:11:32
认为AI有可能彻底改变生物学等领域
00:11:34
内森认为
00:11:35
尽管Dario没有足够的科学背景
00:11:37
来评估AI在生物学领域的具体影响
00:11:39
但是可以肯定的是
00:11:40
AI将在任何计算科学领域加速进步
00:11:43
DeepSeek R1的发布就是一个很好的例子
00:11:46
展示了AI在新范式下的巨大进步潜力
00:11:49
而且这种快速的进步趋势将延续下去
00:11:51
带来更多的突破
00:11:53
不过，对于具体的AGI时间线
00:11:55
内森业表示难以预测
00:11:57
他认为到2030年之后
00:11:59
可能会出现具有重大地缘政治影响的AGI
00:12:02
尽管如此，内森也指出
00:12:04
AI技术的发展已经对地缘政治产生了影响
00:12:07
比如，在印度和巴基斯坦的选举中
00:12:09
人们接收到的AI语音电话
00:12:11
让他们误以为是在与政治家对话
00:12:14
此外
00:12:14
美国最近通过的禁止AI扩散出口管制框架
00:12:17
限制了对某些国家的云计算和GPU销售
00:12:21
即使这些国家与地缘政治冲突无关
00:12:23
这种做法也表明美国对AI技术的担忧
00:12:27
另外就是英伟达最近大幅削减了今年的H20芯片生产计划
00:12:31
原本计划生产200万个
00:12:33
但是最终取消了所有订单
00:12:35
这个举动表明
00:12:36
Nvidia可能担心H20芯片会受到进一步的出口限制
00:12:40
随后三人又聊回了技术方面
00:12:42
主要集中在推理架构中的关键技术
00:12:45
首先，在Transformer架构中
00:12:47
注意力机制是核心的组件之一
00:12:49
通过计算每个token与其他token之间的相对连接性
00:12:52
它能够让模型理解上下文中各个单词之间的关系
00:12:55
而不仅仅是参数本身
00:12:57
在注意力机制中
00:12:58
有三个核心组成部分
00:13:00
分别是查询（Query）、键（Key）和值（Value）
00:13:02
通常简称为QKV
00:13:04
这些矩阵在计算过程中相乘
00:13:06
从而确定每个token与其他token之间的关系
00:13:09
查询是模型试图获取信息的目标
00:13:12
键和值则用来检索这些信息
00:13:14
在自回归模型中
00:13:15
模型会逐个生成token
00:13:17
并且在每次生成的时候更新KV缓存
00:13:20
KV缓存里存的是之前所有token的压缩表示
00:13:23
而模型在生成下一个token的时候
00:13:26
会参考这个缓存
00:13:27
应该说
00:13:28
KV缓存的使用极大地提高了推理效率
00:13:30
因为它避免了重复计算
00:13:32
不过
00:13:33
注意力机制也存在一个显著的缺点
00:13:35
那就是它的内存成本与上下文长度成正比
00:13:39
这意味着，随着上下文长度的增加
00:13:41
内存需求也会迅速增长
00:13:43
这对于大规模推理服务构成了挑战
00:13:46
对于长序列上下文
00:13:47
内森提到了一些新的注意力机制
00:13:49
可以通过优化内存使用
00:13:51
来提高模型处理长序列的能力
00:13:53
比方说Gemini就拥有业界最长的上下文长度
00:13:56
高达200万token
00:13:58
这主要得益于Google在TPU架构上的优化
00:14:01
对于输入和输出Token的价格为什么存在差异
00:14:04
内森指出
00:14:05
这主要是因为生成Token的过程不是并行的
00:14:08
具体来说，输入一个查询的时候
00:14:10
可以并行计算所有Token的KV缓存
00:14:13
而生成一个Token的时候
00:14:14
必须顺序地读取整个模型和KV缓存
00:14:17
计算下一个Token
00:14:18
并将新生成的Token及其KV缓存
00:14:21
追加到缓存中
00:14:22
因此，生成Token的计算复杂度
00:14:24
要远高于输入Token
00:14:26
通常，API提供商对输入Token的收费
00:14:29
大约为输出Token的四分之一
00:14:31
就是因为输入Token可以批量处理
00:14:33
而输出Token则需要逐个生成
00:14:36
而DeepSeek R1模型在推理成本方面表现出色
00:14:39
每百万输出Token的成本仅为2美元
00:14:42
而OpenAI的GPT-4则高达60美元
00:14:45
这种成本上的差异
00:14:46
主要源于DeepSeek在模型架构上的创新
00:14:49
包括通过MLA注意力机制
00:14:51
将内存使用节省了80%到90%，
00:14:54
以及使用局部-全局注意力和滑动窗口机制等其他优化技术
00:14:59
对于各个模型的表现
00:15:00
Lex做了一个简单的哲学问题测试
00:15:02
他自己认为
00:15:03
o1 Pro的表现最好，也最稳定
00:15:06
接下来是DeepSeek R1
00:15:07
Gemini Flash 2.0排在第三
00:15:09
而o3 mini则排在最后
00:15:11
尽管o3 mini在头脑风暴中的表现要优于R1
00:15:15
但是在开放性哲学问题上的表现较差
00:15:17
这其中
00:15:18
DeepSeek R1展示了完整的思考链
00:15:21
这种透明的思考过程
00:15:22
对于欣赏智能和推理过程的人来说
00:15:25
具有极大的吸引力
00:15:26
通过观察这种思考路径
00:15:28
可以看到智能系统的非线性思维过程
00:15:30
类似于詹姆斯·乔伊斯的《尤利塞斯》或《芬尼根的守灵夜》中的思维过程
00:15:34
夜中的思维过程
00:15:35
关于Nvidia股票的下跌
00:15:36
Lex提到主要是由于DeepSeek的发布
00:15:39
引发了市场对Nvidia GPU需求减少的担忧
00:15:42
不过，这种担忧可能被夸大了
00:15:44
Nvidia GPU的需求仍然很高
00:15:46
尤其是在数据中心领域
00:15:48
而且AI的进步
00:15:49
可能还会进一步推动对高性能计算的需求
00:15:52
这将有利于Nvidia等公司
00:15:54
接下来一大块的内容是讨论训练集训与数据中心的建设
00:15:58
迪伦指出
00:15:59
数据中心的电力消耗在过去几十年中逐渐增加
00:16:02
预计到2028年或2030年
00:16:05
这一比例可能达到10%。
00:16:07
这个数字对于AI公司来说显得尤为重要
00:16:10
Anthropic和OpenAI等公司认为
00:16:12
现有的电力消耗水平远远不够
00:16:15
未来需要更多的电力支持
00:16:17
集群建设主要分为两种类型
00:16:19
分别是分布式集群和集中式集群
00:16:22
分布式集群在全球范围内或者美国境内广泛分布
00:16:26
主要用于处理推理任务
00:16:27
这种模式在AI服务中非常常见
00:16:30
比如Word Copilot、Apple Intelligence等等
00:16:33
而集中式集群则主要用来训练大型模型
00:16:36
以GPT-3和GPT-4为例
00:16:38
GPT-4使用了20000块A100 GPU进行训练
00:16:41
耗电量达到了15到20兆瓦
00:16:44
另外，随着技术的进步
00:16:45
GPU的功耗也在不断增加
00:16:47
比如H100 GPU的功耗从400瓦提升到了700瓦
00:16:52
加上其他硬件设备
00:16:53
每块GPU的总功耗大约为1200到1400瓦
00:16:56
因此
00:16:57
大规模集群的建设不仅需要大量的电力支持
00:17:00
还需要高效的冷却系统和强大的网络连接
00:17:03
在数据中心的设计和扩展方面
00:17:06
迪伦举了几个例子
00:17:07
比如Meta最初的数据中心设计是呈H型的
00:17:11
通过连接多个这样的模块来实现扩展
00:17:13
起初，Meta部署了16000块GPU
00:17:16
最终扩展到24000块GPU
00:17:19
不过，由于GPU的高故障率
00:17:21
只有大约16000块GPU用于实际的训练
00:17:23
其余作为备用
00:17:25
随着时间的推移
00:17:26
Meta的数据中心规模不断扩大
00:17:28
目前LLaMA 4的训练使用了大约100000块GPU
00:17:32
计划扩展到128000块GPU
00:17:34
考虑到每块GPU大约消耗1400瓦的电力
00:17:37
这意味着数据中心的总电力消耗
00:17:40
从2022年的大约15兆瓦
00:17:42
增加到2024年的大约150兆瓦
00:17:45
实现了近10倍的增长
00:17:46
Elon Musk的XAI
00:17:48
在数据中心建设方面也展现了极高的热情和决心
00:17:52
XAI在2022年开始建设数据中心
00:17:54
并且迅速成为全球最大的GPU集群
00:17:57
规模达到200000块GPU
00:17:59
为了支持如此庞大的计算需求
00:18:01
XAI在田纳西州孟菲斯市
00:18:03
购买了一座废弃的电器工厂
00:18:05
并且进行了大规模的基础设施改造
00:18:08
其中包括升级变电站、部署移动电源生成系统、连接天然气管道
00:18:13
以及建设天然气发电厂
00:18:15
此外
00:18:15
XAI还引入了特斯拉的Megapack电池储能系统
00:18:18
来确保电力供应的稳定性
00:18:20
并且使用工业级冷水机来冷却服务器
00:18:24
而相比之下
00:18:25
OpenAI在亚利桑那州和德克萨斯州阿本纳建设的数据中心计划
00:18:28
更是令人震惊
00:18:30
据OpenAI官方宣布
00:18:31
这个数据中心的总电力消耗将达到2200兆瓦
00:18:35
其中大约1800兆瓦会直接用于芯片运算
00:18:38
这个规模相当于一个小城市的电力消耗
00:18:41
足以支持大规模的模型预训练和后训练任务
00:18:44
OpenAI的Stargate项目
00:18:45
正是想通过多吉瓦级的数据中心
00:18:48
来加速AI模型的发展
00:18:50
特别是在强化学习、计算机视觉等前沿领域
00:18:53
迪伦还特别提到了一个值得大家注意的点
00:18:56
那就是被称为幕后英雄的冷却和电气系统
00:18:59
他举了一个例子
00:19:00
那就是在训练过程中
00:19:02
计算和权重交换之间的电力消耗差异极大
00:19:05
在模型训练的每一步中
00:19:07
计算任务会消耗大量的电力
00:19:10
如果计算和通信不能完美重叠
00:19:13
GPU可能会进入空闲状态
00:19:15
导致电力消耗出现尖峰
00:19:17
这种尖峰可能会导致数据中心的电力设施过载
00:19:20
甚至引发故障
00:19:22
为了解决这个问题
00:19:23
Meta在PyTorch中添加了一个名为`PowerPlant no blowup`的操作符
00:19:27
这个操作符能在权重交换期间
00:19:30
让GPU计算一些虚拟数据
00:19:32
从而避免电力消耗的剧烈波动
00:19:34
而特斯拉则采用了一种不同的方法
00:19:36
即使用大量的Tesla Mega Packs来解决电力的管理问题
00:19:40
虽然每家公司都有自己的解决方案
00:19:43
但是Meta的做法是公开且透明的
00:19:45
而且可以通过简单的操作符调整
00:19:47
来优化电力使用
00:19:49
此外，迪伦指出
00:19:50
传统的数据中心冷却系统主要依赖于空气冷却
00:19:53
包括金属散热器、热管和风扇等组件
00:19:57
不过，随着计算能力的提升
00:19:58
传统的空气冷却系统已经无法满足需求
00:20:01
谷歌的TPU已经使用了多年的水冷系统
00:20:04
但是对于GPU
00:20:06
大规模的水冷系统还没有普及
00:20:08
Nvidia已经在最新一代的高端GPU中
00:20:10
强制要求使用水冷系统
00:20:12
特斯拉则在现有的GPU中采用了大规模水冷系统
00:20:16
比如在Memphis数据中心
00:20:18
就有90个大型水冷机
00:20:20
这种冷却系统不仅能提高冷却效率
00:20:22
还能提高数据中心的整体性能
00:20:25
在集群规模竞赛中
00:20:26
特斯拉目前处于领先地位
00:20:28
Memphis数据中心拥有200000个GPU
00:20:30
其中包括100000个H100和100000个H20
00:20:33
Meta和OpenAI紧随其后
00:20:35
分别拥有128000和100000个GPU
00:20:38
虽然其他公司拥有更多的GPU
00:20:40
但是这些GPU通常分散在不同的地区
00:20:43
因此，特斯拉的单体集群规模
00:20:45
在当前竞赛中占据优势
00:20:47
预计到今年年底
00:20:49
Anthropic和Amazon将建设一个包含400
00:20:51
000个Trainium 2芯片的集群
00:20:54
Meta和OpenAI也有计划在未来几年内
00:20:56
将GPU集群规模扩大到500000到700000个
00:21:00
这些大规模的GPU集群主要用来训练预训练任务
00:21:03
不过，随着现有数据集的趋于饱和
00:21:05
预训练阶段的扩展空间有限
00:21:07
相比之下
00:21:08
后训练阶段将消耗更多的计算资源
00:21:11
这些任务包括模型的自我训练、模拟环境中的任务执行
00:21:15
以及复杂的推理任务等等
00:21:17
传统的FLOPS指标可能已经不再完全适用于这些任务
00:21:20
因此未来可能会出现新的性能评估指标
00:21:23
来更好地反映这些复杂任务的计算需求
00:21:26
对于目前的几家云计算大厂
00:21:29
迪伦指出
00:21:30
Google Cloud虽然在某些方面表现强劲
00:21:32
但是在整体市场份额上
00:21:34
Google Cloud排名第三
00:21:35
微软排名第二，亚马逊则遥遥领先
00:21:38
微软看似市场份额较大
00:21:40
但是它主要是在企业级许可证（比如Microsoft Office 365）中占有很大比例
00:21:45
实际上差距更大
00:21:47
亚马逊之所以领先
00:21:48
是因为使用AWS更为便捷
00:21:50
而且在许多情况下更为经济实惠
00:21:53
此外，AWS是最早进入市场的
00:21:55
一旦用户开始使用，切换成本极高
00:21:58
而且存在高额的转换费用
00:22:01
AWS为亚马逊贡献了超过80%的利润
00:22:03
甚至可能超过90%，
00:22:05
盈利能力惊人
00:22:07
尽管AWS的用户界面仍然显得有些笨拙
00:22:11
亚马逊的服务质量更优
00:22:13
自主研发的硬件更是降低了成本结构
00:22:16
包括存储、CPU和网络等传统的云服务
00:22:19
在数据库领域
00:22:20
亚马逊的五大收入产品中
00:22:22
有四个与数据库相关，比如Redshift
00:22:25
这进一步巩固了它的市场地位
00:22:27
谷歌的硬件团队虽然拥有TPU等优秀产品
00:22:30
但是这些硬件主要用在内部服务
00:22:33
而非面向外部客户
00:22:35
相比之下，Nvidia从成立之初
00:22:37
就专注在为外部客户提供高性能的计算解决方案
00:22:41
在《英伟达之道》一书中
00:22:43
就阐述了Nvidia的整个企业文化
00:22:45
其实都是围绕这个目标构建的
00:22:47
Nvidia通过优化CUDA软件库
00:22:49
迅速适应高性能计算的新需求
00:22:52
这与谷歌的服务模式截然不同
00:22:54
在硬件领域
00:22:55
Nvidia的优势难以被Intel和AMD等竞争对手超越
00:22:59
尽管AMD和Intel的硬件在某些方面优于Nvidia
00:23:02
但是软件支持相对不足
00:23:04
尤其是对于开源库的支持
00:23:06
Intel目前面临严峻的挑战
00:23:08
市场份额不断下滑
00:23:10
尤其是在服务器和PC市场
00:23:12
苹果的M1芯片、Nvidia和Qualcomm的PC芯片
00:23:15
以及各个超大规模数据中心自研的ARM服务器芯片
00:23:18
都在侵蚀Intel的市场份额
00:23:20
另外，Intel在AI芯片领域进展缓慢
00:23:23
并且在移动市场错失良机
00:23:25
导致它失去了技术领先地位
00:23:27
尽管Intel正在努力追赶
00:23:29
但是前景仍不明朗
00:23:31
迪伦认为，在未来的AI竞赛中
00:23:34
单一公司独占鳌头的可能性比较小
00:23:36
许多公司将会在AI的不同领域受益
00:23:39
不仅局限于训练最佳的模型
00:23:41
像Meta就可以通过其庞大的用户基础和多样化的产品线
00:23:45
从AI中获得巨大的收益
00:23:47
对于OpenAI来说
00:23:48
尽管在大语言模型领域占据优势
00:23:50
但是在商业模式面临很大挑战
00:23:53
ChatGPT虽然价值巨大
00:23:56
未来
00:23:56
OpenAI还需探索其他的应用领域
00:23:59
比如推理、代码生成和机器人等等
00:24:01
来实现可持续发展
00:24:03
总的来说
00:24:04
像谷歌和Meta这些公司拥有更广泛的业务组合
00:24:08
可以从AI中获得多重收益
00:24:10
而像OpenAI和Anthropic这些专注于先进模型的公司
00:24:13
必须不断创新
00:24:14
才能保持竞争力
00:24:16
访谈接近尾声，在有关Agent的话题上
00:24:19
迪伦认为，目前刚刚进入推理阶段
00:24:22
可能还需要一两年，然后才是Agent
00:24:25
虽然人们现在可以尝试Agent的能力
00:24:27
让代理持续几分钟甚至几小时
00:24:30
自主地执行任务
00:24:31
但是最大的问题是
00:24:33
就像制造业中的六西格玛一样
00:24:35
每增加一个步骤
00:24:36
即使是最先进的系统也会降低整体的性能
00:24:39
即使最好的语言模型在基准测试中表现良好
00:24:43
但是它们也并不是100%准确的
00:24:45
因为存在噪声
00:24:46
因此
00:24:47
如何达到足够的可靠性仍然是一个挑战
00:24:50
这与自动驾驶类似
00:24:51
而足够的可靠性
00:24:53
在一个开放、混乱的网络环境中是不可能实现的
00:24:56
就像在互联网历史上
00:24:58
航空公司和酒店虽然有很强的动力让自己的网站工作良好
00:25:02
但是预订机票的界面通常非常糟糕
00:25:05
想象一下
00:25:06
AI Agent能否处理这些网站
00:25:08
就连人类用户都经常在预订机票时感到困惑
00:25:12
如果航空公司能够把网站优化的更易于AI处理
00:25:15
那么这将会带来显著的经济利益
00:25:18
在编程方面
00:25:19
AI Agent已经取得了显著的成果
00:25:21
比如代码补全、函数生成和代码审查等功能
00:25:24
已经得到了广泛应用
00:25:26
软件工程Agent不仅可以进行单元测试或者编译
00:25:30
还可以检查整个代码库
00:25:31
这是普通工程师无法做到的
00:25:34
因此，软件工程的成本将大幅下降
00:25:37
这将导致不同的市场，比方在中国
00:25:40
由于软件工程师的成本较低
00:25:42
企业更倾向于构建自己的技术栈
00:25:44
而不是使用平台SaaS
00:25:46
因此
00:25:47
编程的大语言模型在中国的采用程度较低
00:25:50
因为工程师成本较低
00:25:52
但是
00:25:52
当每个公司都能以低成本和快速的方式
00:25:55
构建自己的业务逻辑时
00:25:57
将不会再选择使用平台SaaS
00:25:59
而是会选择构建定制化的解决方案
00:26:01
从而提高效率
00:26:03
所以说，软件工程领域的进步
00:26:05
将会导致软件工程师的成本急剧下降
00:26:08
不过
00:26:08
这并不意味着软件工程师会突然失业
00:26:11
而是工作性质会发生变化
00:26:13
人类将在AI系统中扮演更重要的角色
00:26:16
人类需要监督和修正代码，进行调试
00:26:19
并且设计最佳的解决方案
00:26:21
AI可以来提供多种选项
00:26:23
但是人类需要判断哪个更好
00:26:25
因此
00:26:26
软件工程师需要具备高水平的编程技能
00:26:29
并且成为某个领域的专家
00:26:30
最后
00:26:31
内森还介绍了一下自己Ai2实验室的Tulu开源模型
00:26:34
并且跟DeepSeek V3做了一些对比
00:26:37
在平均基准测试上略高一分
00:26:40
具体内容我们就不多展开说了
00:26:42
对这个模型有兴趣的观众
00:26:43
可以去看一下他们的官网
00:26:45
好了
00:26:45
以上就是Lex Fridman这次5小时播客的主要内容了
00:26:49
其实很多内容在我们频道的很多节目中
00:26:52
都陆陆续续覆盖到了
00:26:53
这次三个人相当于做了一个通盘的回顾和总结
00:26:56
不得不说
00:26:57
Lex的节目真是令人看得发狂
00:26:59
希望大飞这期节目能帮大家节省下几个小时的时间
00:27:03
其间总结的比较仓促，难免会有错误
00:27:06
欢迎大家指出，我及时改正
00:27:08
感谢大家的观看，我们下期再见