【访谈】Lex Fridman最新五小时访谈精华版 | DeepSeek | 后训练 | 开放权重 | 技术改进 | YOLO Run | AGI | 注意力 | 英伟达 | 数据中心 | Agent

00:27:10
https://www.youtube.com/watch?v=RbGX-FQNYQ0

Résumé

TLDR在这场长达5小时的对话中,Lex Fridman和AI领域的专家们深入探讨了DeepSeek模型的最新进展,包括V3和R1的开发与应用。这些模型在训练阶段的策略、开放性与隐私安全性、推理能力的运行机制等方面进行了详细分析。对话还涉及两者在各自应用领域的表现及成本效益分析,以及对未来人工智能技术进展和AGI(通用人工智能)的预测。整个过程对AI技术的未来方向和产业竞争格局提供了深刻见解。

A retenir

  • 🧠 DeepSeek V3和R1模型的不同应用场景
  • 🛡️ 开放权重模型和数据隐私的关系
  • ⚙️ R1的双阶段推理过程
  • 📉 大型模型训练面临的电力消耗挑战
  • 🏢 数据中心冷却系统的重要性
  • 🌏 全球AI竞赛的未来展望
  • 💡 DeepSeek模型的训练策略分析
  • 📊 模型性能基准测试对比
  • 🔌 YOLO Run策略的使用价值
  • 📈 AGI技术的潜在影响

Chronologie

  • 00:00:00 - 00:05:00

    Lex Fridman与Dylan Patel和Nathan Lambert进行了长达五个小时的深入对话,涵盖了DeepSeek的技术突破和全球AI生态的未来。重点介绍了DeepSeek V3和R1模型的发布及其特性,V3专注于通用聊天,R1则优化了推理能力。

  • 00:05:00 - 00:10:00

    深入讨论了DeepSeek模型的训练过程,包括预训练和后期训练方法,介绍了各种优化技术如指令调优和强化学习调优,并阐明了两者在推理能力和性能上的区别。

  • 00:10:00 - 00:15:00

    三位嘉宾探讨了模型开放权重及其数据隐私安全问题,强调用户在使用模型时需谨慎选择托管方,并详细描述了DeepSeek R1的两阶段推理生成过程的独特之处。

  • 00:15:00 - 00:20:00

    谈到DeepSeek R1较其他模型的显著优势,如混合专家模型和多层低秩注意力技术,通过高效的计算实现了在推理效率和训练成本上的创新。

  • 00:20:00 - 00:27:10

    最后,嘉宾们分析了未来AI的趋势,包括AGI的发展、数据中心建设与环境影响,以及软件工程领域AI带来的变革,预示着技术竞争的不断演进。

Afficher plus

Carte mentale

Vidéo Q&R

  • DeepSeek模型的主要特性是什么?

    DeepSeek V3是通用聊天模型,而R1则专注推理能力,能生成详细思考过程适用于复杂任务。

  • 开放权重模型是否安全?

    模型本身不窃取用户数据,但使用时需信任托管方,用户可选择本地运行以控制数据。

  • DeepSeek R1的推理特点有哪些?

    DeepSeek R1在生成回答前先输出思考过程,并通过特殊Token标记最终答案。

  • 训练大型AI模型面临哪些挑战?

    包括损失函数的不稳定性、计算资源的不足和电力消耗的增长问题。

  • 数据中心如何应对高电力消耗问题?

    需要高效的冷却系统和强大的网络连接以支持计算需求。

Voir plus de résumés vidéo

Accédez instantanément à des résumés vidéo gratuits sur YouTube grâce à l'IA !
Sous-titres
zh-Hans
Défilement automatique:
  • 00:00:00
    大家好,这里是最佳拍档,我是大飞
  • 00:00:03
    昨天
  • 00:00:03
    Lex Fridman与SemiAnalysis的创始人迪伦·帕特尔Dylan Patel和Allen AI的内森·兰伯特Nathan Lambert
  • 00:00:09
    进行了一场深度对话
  • 00:00:10
    时间长达疯狂的5个小时
  • 00:00:13
    对话呢涵盖了DeepSeek的技术突破
  • 00:00:15
    中国AI生态系统的崛起
  • 00:00:17
    以及全球AI竞赛的未来格局等等
  • 00:00:20
    信息量呢巨大
  • 00:00:21
    观点呢也非常的犀利
  • 00:00:23
    尤其是3米analysis
  • 00:00:24
    前两天发表的关于DeepSeek的文章
  • 00:00:27
    信息量巨大
  • 00:00:28
    今天大飞就来为大家解读一下这次对话的重点
  • 00:00:32
    提醒一下,本视频时间也很长
  • 00:00:34
    时间关系也没有做后期
  • 00:00:36
    建议大家准备好零食饮料
  • 00:00:38
    或者在干家务的时候顺便听一下
  • 00:00:41
    如果能有不错的催眠效果
  • 00:00:43
    那正是大飞我的本意
  • 00:00:45
    首先Lex大概介绍了一下DeepSeek V3和DeepSeek R1
  • 00:00:48
    这个我相信大家应该都已经很熟悉了
  • 00:00:51
    所以我尽量简单过这部分
  • 00:00:53
    2023年12月26日
  • 00:00:55
    DeepSeek 发布了V3模型
  • 00:00:56
    这是一个混合专家Transformer模型
  • 00:00:59
    用户可以在互联网上公开获取模型的权重参数
  • 00:01:02
    遵循MIT许可证
  • 00:01:04
    随后在2024年1月20日
  • 00:01:06
    DeepSeek 又发布了R1
  • 00:01:07
    这是一个推理模型
  • 00:01:09
    两个模型基于相同的预训练基础模型
  • 00:01:11
    但是在后续的训练步骤上有所不同
  • 00:01:14
    导致了它们在功能和应用场景上的差异
  • 00:01:16
    除了开放权重以外
  • 00:01:18
    DeepSeek还提供了详细的训练报告和代码示例
  • 00:01:21
    有助于其他研究团队进行复现和改进
  • 00:01:24
    接下来
  • 00:01:24
    对话重点围绕DeepSeek的这两个模型展开
  • 00:01:28
    首先是模型的训练阶段
  • 00:01:29
    分为预训练和后训练两个阶段
  • 00:01:32
    预训练阶段主要通过自动回归预测
  • 00:01:34
    来预测文本序列中的下一个Token
  • 00:01:36
    训练数据通常来自大规模的互联网文本
  • 00:01:39
    比如Common Crawl等公开数据集
  • 00:01:42
    预训练完成后,模型进入后训练阶段
  • 00:01:44
    通过不同的训练方法来优化模型的特定行为
  • 00:01:48
    常见的后训练方法包括指令调优、偏好调优和强化学习调优
  • 00:01:52
    其中,指令调优是一种监督学习方法
  • 00:01:55
    通过在训练数据中添加指令格式
  • 00:01:58
    来指导模型生成特定格式的回答
  • 00:02:00
    这种方法通常用来生成结构化的文本
  • 00:02:03
    比如问答对、代码示例等等
  • 00:02:05
    像DeepSeek V3就是用这种方法进行的后训练
  • 00:02:08
    而偏好调优是通过收集人类对不同回答的偏好
  • 00:02:12
    来优化模型的输出质量
  • 00:02:14
    这种方法通常涉及到收集人类对多个回答的偏好评分
  • 00:02:18
    然后使用这些评分来训练一个奖励模型
  • 00:02:20
    指导模型生成更符合人类偏好的回答
  • 00:02:24
    强化学习调优则是一种通过奖励机制来优化模型的方法
  • 00:02:28
    这种方法通过在数学、编程等特定领域中
  • 00:02:31
    设置奖励函数
  • 00:02:32
    让模型通过试错来学习生成正确的答案
  • 00:02:36
    DeepSeek R1就是用这种方法进行的后训练
  • 00:02:39
    在性能和应用场景上
  • 00:02:40
    DeepSeek V3和R1有所不同
  • 00:02:43
    DeepSeek V3是一个通用的聊天模型
  • 00:02:45
    能够生成高质量的、格式化的回答
  • 00:02:48
    适用于各种应用场景
  • 00:02:49
    比如问答系统、编程助手等
  • 00:02:52
    DeepSeek R1则是一个专注于推理能力的模型
  • 00:02:55
    能够生成详细的推理过程
  • 00:02:57
    适用于需要复杂推理的任务
  • 00:02:59
    比如数学问题求解、代码调试等
  • 00:03:02
    根据基准测试结果
  • 00:03:03
    DeepSeek V3的性能与OpenAI GPT-4和Llama 405B相当
  • 00:03:08
    而DeepSeek R1在推理任务上的表现优于其他模型
  • 00:03:12
    此外,DeepSeek V3和R1都开放了权重
  • 00:03:14
    用户可以自由地使用和修改模型
  • 00:03:17
    无需担心数据隐私和商业限制
  • 00:03:20
    接下来
  • 00:03:20
    三人就开放权重的数据隐私和安全性展开了讨论
  • 00:03:24
    虽然模型本身不会窃取用户的数据
  • 00:03:27
    但是用户在使用这些模型的时候
  • 00:03:29
    需要信任模型的托管方,当然
  • 00:03:32
    用户也可以选择在本地运行模型
  • 00:03:34
    从而完全控制自己的数据
  • 00:03:36
    不过,如果用户通过API访问模型服务
  • 00:03:38
    数据就会被托管方处理和存储
  • 00:03:41
    也就存在数据泄露和滥用的风险
  • 00:03:43
    因此
  • 00:03:44
    选择合适的模型托管方和使用方式
  • 00:03:47
    对于保护用户数据隐私至关重要
  • 00:03:50
    由于R1是一个推理模型
  • 00:03:52
    所以它在生成回复的时候
  • 00:03:53
    会先输出一个详细的思考过程
  • 00:03:56
    然后再给出最终的答案
  • 00:03:58
    这个思考过程通常会表现为一长串的Token
  • 00:04:01
    模型会逐步解释问题
  • 00:04:03
    并且分解成多个步骤
  • 00:04:04
    比如
  • 00:04:05
    模型会先说明用户的问题是什么
  • 00:04:07
    然后列出解决问题所需要的步骤
  • 00:04:10
    这些步骤会快速地生成并显示在屏幕上
  • 00:04:13
    最终,模型会切换到一个不同的语气
  • 00:04:16
    总结其思考过程并给出最终答案
  • 00:04:19
    这种两阶段的生成过程
  • 00:04:20
    就是DeepSeek R1的一个显著特点
  • 00:04:23
    在技术实现上
  • 00:04:24
    DeepSeek R1的模型被训练成能够自动进行这种两阶段的推理
  • 00:04:29
    具体来说,模型在生成思考过程后
  • 00:04:31
    会生成一个特殊的Token来标记答案的开始
  • 00:04:34
    这个Token通常对用户来说是不可见的
  • 00:04:37
    通过这种方式
  • 00:04:38
    模型能够独立地完成从推理到给出答案的整个过程
  • 00:04:42
    相比之下
  • 00:04:43
    像OpenAI这样的公司可能会通过用户界面
  • 00:04:46
    将这个过程分解成多个部分
  • 00:04:48
    比如“问题分解”、“计算”、“结果清理”等等
  • 00:04:51
    然后逐步展示给用户
  • 00:04:53
    内森以一个DeepSeek R1推理的例子来说明这个过程
  • 00:04:56
    假设用户问了一个关于人类独特性的哲学问题
  • 00:04:59
    模型会首先详细地分解这个问题
  • 00:05:02
    然后逐步推理出答案
  • 00:05:03
    例如
  • 00:05:04
    模型可能会提到人类具有独特的元情绪
  • 00:05:07
    也就是对于自身情绪的感受
  • 00:05:09
    这种递归的情绪层
  • 00:05:11
    使得人类的行为动机更加复杂
  • 00:05:13
    接着
  • 00:05:14
    模型会进一步探讨人类同时持有矛盾信念的能力
  • 00:05:17
    即认知失调
  • 00:05:19
    这种能力可能有助于灵活适应环境
  • 00:05:21
    最终,模型给出的答案是
  • 00:05:23
    人类通过集体假装抽象规则
  • 00:05:26
    比如金钱、法律和权利的存在
  • 00:05:28
    将自私的欲望转化为合作系统
  • 00:05:31
    从而将冲突转化为社会发展的动力
  • 00:05:33
    这个答案不仅深刻
  • 00:05:34
    而且具有一定的启发性
  • 00:05:37
    在训练和推理效率方面
  • 00:05:38
    DeepSeek R1也做出了显著的改进
  • 00:05:41
    主要的技术包括混合专家模型MoE和多层低秩注意力MLA
  • 00:05:46
    混合专家模型是一种将模型参数
  • 00:05:48
    分成多个子模型的技术
  • 00:05:50
    每个子模型,也称为专家模型
  • 00:05:52
    只会在特定的任务中被激活
  • 00:05:54
    这种方法大大减少了训练和推理时需要计算的参数数量
  • 00:05:58
    从而降低了计算成本
  • 00:05:59
    比方说
  • 00:06:00
    DeepSeek R1虽然有6000多亿个参数
  • 00:06:02
    但是在训练和推理的时候
  • 00:06:04
    每次只会激活大约370亿个参数
  • 00:06:07
    相比之下
  • 00:06:08
    Llama 405B模型需要激活全部4050亿个参数
  • 00:06:12
    计算成本显著更高
  • 00:06:14
    DeepSeek在混合专家模型中还引入了一种新的路由机制
  • 00:06:18
    传统方法中
  • 00:06:18
    混合专家模型可能会依赖辅助损失(auxiliary loss)
  • 00:06:21
    来确保所有专家在训练过程中都被使用
  • 00:06:24
    辅助损失的作用是在训练时平衡不同专家的使用频率
  • 00:06:28
    防止模型只依赖少数几个专家进行预测
  • 00:06:31
    不过
  • 00:06:32
    这种方法可能会引入额外的偏差
  • 00:06:35
    限制模型的学习能力
  • 00:06:36
    但是DeepSeek采取了一种不同的方法
  • 00:06:39
    在每个批次训练结束后
  • 00:06:41
    模型会更新一个额外的参数
  • 00:06:43
    从而确保后续批次中所有专家的使用频率更加均衡
  • 00:06:47
    这种方法避免了辅助损失可能引入的偏差
  • 00:06:50
    同时确保了所有专家的有效利用
  • 00:06:52
    另外
  • 00:06:53
    多层低秩注意力是一种优化注意力机制的技术
  • 00:06:56
    通过使用低秩近似
  • 00:06:57
    来减少内存使用和计算复杂度
  • 00:07:00
    这种方法在训练和推理过程中能带来显著的效率提升
  • 00:07:04
    此外
  • 00:07:04
    DeepSeek R1还对底层通信机制进行了优化
  • 00:07:08
    由于训练过程中涉及大量的GPU通信
  • 00:07:11
    DeepSeek R1通过自定义通信调度策略
  • 00:07:14
    进一步提高了效率
  • 00:07:15
    具体来说
  • 00:07:16
    DeepSeek R1直接在GPU的汇编语言PTX层面进行编程
  • 00:07:20
    优化了不同核心之间的通信
  • 00:07:22
    从而实现了更高的效率
  • 00:07:24
    这些技术的结合
  • 00:07:25
    使得DeepSeek R1在保持高性能的同时
  • 00:07:28
    大幅降低了训练和推理的成本
  • 00:07:30
    例如,与Llama 405B相比
  • 00:07:32
    DeepSeek R1在训练时可以节省大约30%的计算资源
  • 00:07:36
    这种高效的训练和推理能力
  • 00:07:38
    使得DeepSeek R1能够在资源有限的情况下
  • 00:07:41
    仍然保持较高的性能水平
  • 00:07:43
    内森提到
  • 00:07:44
    在The Bitter Lesson苦涩的教训中
  • 00:07:46
    就强调了在训练过程中
  • 00:07:47
    要避免引入过多的人类先验知识
  • 00:07:50
    让模型能够自主学习的重要性
  • 00:07:52
    以及通过引入简单的、可扩展的解决方案
  • 00:07:55
    而不是复杂的、特定于问题的技巧
  • 00:07:58
    模型能够在更大的问题上取得更好的表现
  • 00:08:01
    而DeepSeek的创新正是这一理念的体现
  • 00:08:04
    通过引入新的路由机制
  • 00:08:06
    DeepSeek避免了辅助损失可能引入的偏差
  • 00:08:08
    同时确保了所有专家的有效利用
  • 00:08:11
    这种简单而有效的解决方案
  • 00:08:13
    使得模型在保持高效的同时
  • 00:08:15
    取得了显著的性能提升
  • 00:08:17
    此外,训练大型模型
  • 00:08:19
    本身也是一个复杂且充满挑战的过程
  • 00:08:21
    在训练过程中
  • 00:08:22
    模型可能会遇到各种问题
  • 00:08:24
    包括损失函数的突然上升(loss spikes)
  • 00:08:26
    这些问题可能是由于数据质量问题、模型架构问题或者其他原因引起的
  • 00:08:31
    为了确保模型的稳定性和性能
  • 00:08:33
    训练团队需要密切监控训练过程中的各种指标
  • 00:08:37
    包括损失函数、令牌处理速度等等
  • 00:08:39
    当发现异常的时候
  • 00:08:41
    需要及时采取措施进行调整
  • 00:08:43
    比如,如果发现损失函数突然上升
  • 00:08:46
    可以暂停训练
  • 00:08:47
    检查数据质量,调整超参数等等
  • 00:08:49
    通过不断的调试和优化
  • 00:08:51
    通过不断的调试和优化
  • 00:08:53
    训练团队能够找到最佳的超参数组合
  • 00:08:55
    提高模型的性能
  • 00:08:57
    迪伦接下来提到了YOLO Run的概念
  • 00:08:59
    这个概念来源于一种“一次性投入”的策略
  • 00:09:02
    在小规模实验的阶段
  • 00:09:04
    研究人员会进行各种实验
  • 00:09:05
    比如测试不同的专家数量(4个专家、128个专家)或不同的架构排列方式
  • 00:09:12
    这些实验通常会在少量GPU上进行
  • 00:09:14
    比如3个GPU、数十个GPU或数百个GPU
  • 00:09:18
    然而,当决定进行大规模训练的时候
  • 00:09:21
    所有资源都会被集中使用
  • 00:09:22
    不再进行过多的实验
  • 00:09:24
    而是直接选择认为可行的方案进行投入
  • 00:09:27
    这种策略带来的压力在于
  • 00:09:29
    某些在小规模实验中有效的方案
  • 00:09:31
    可能在大规模训练中会失效
  • 00:09:33
    反之亦然
  • 00:09:34
    因此
  • 00:09:34
    YOLO Run强调在大规模训练时要敢于冒险
  • 00:09:37
    尽管这可能会伴随着一定的风险
  • 00:09:40
    迪伦还指出,在研究领域
  • 00:09:42
    存在两种不同的方法论
  • 00:09:43
    一种是系统化的方法
  • 00:09:45
    通过全面搜索参数空间并进行大量实验
  • 00:09:48
    来找到最佳配置;
  • 00:09:50
    另一种是依靠直觉
  • 00:09:51
    根据数据和经验做出判断
  • 00:09:54
    一些研究人员能够系统地探索整个参数空间
  • 00:09:57
    找到最佳的模型架构;
  • 00:09:59
    而另一些研究人员则凭借直觉
  • 00:10:01
    在短时间内做出决策
  • 00:10:02
    比方说
  • 00:10:03
    选择在后训练阶段进行优化的原因之一是
  • 00:10:06
    训练阶段的GPU成本较低
  • 00:10:08
    可以进行更多的YOLO Run实验
  • 00:10:10
    虽然YOLO Run看起来像是运气
  • 00:10:12
    但是实际上更多的是技能的体现
  • 00:10:15
    在面对训练效果不佳的情况时
  • 00:10:17
    研究人员通常会遵循一套固定的改进策略
  • 00:10:20
    包括数据改进和其他的局部优化
  • 00:10:23
    这些改进最终会积累起来
  • 00:10:25
    让整个模型性能得到显著提升
  • 00:10:27
    尽管搜索空间几乎是无限的
  • 00:10:29
    但是计算资源有限
  • 00:10:31
    因此研究人员必须在短时间内做出最佳决策
  • 00:10:34
    例如,OpenAI在2022年
  • 00:10:36
    就投入大量资源进行GP4模型的训练
  • 00:10:39
    这种做法可以被视为YOLO Run的典型例子
  • 00:10:42
    接下来三人谈到了幻方量化以及DeepSeek算力的猜测
  • 00:10:46
    这部分内容大家可以去看semianalysis那期节目
  • 00:10:49
    内容基本上是一致的
  • 00:10:50
    这里就不再多说了
  • 00:10:52
    谈到未来的AGI
  • 00:10:53
    内森预计会有更大比例的计算资源
  • 00:10:56
    被用于推理和决策过程
  • 00:10:58
    设想一下,一个AGI进入一个房间
  • 00:11:00
    思考如何控制世界
  • 00:11:02
    并且在2.7小时内完成任务
  • 00:11:04
    这将需要极其强大的计算能力
  • 00:11:06
    他还认为,语言模型本身就是一种AGI
  • 00:11:09
    具备广泛的应用价值
  • 00:11:10
    然而
  • 00:11:11
    未来的重点会转向更具有自主性的AI
  • 00:11:14
    这些AI能够执行训练数据中没有包含的任务
  • 00:11:17
    Lex提到Anthropic的CEO Dario曾经使用“超级强大的AI”这个术语来描述这一目标
  • 00:11:23
    认为到2026年
  • 00:11:24
    将出现一种具有显著军事和地缘政治优势的超级强大的AI
  • 00:11:29
    他还在《充满爱意的机器(Machines of
  • 00:11:31
    Loving Grace)》一文中
  • 00:11:32
    认为AI有可能彻底改变生物学等领域
  • 00:11:34
    内森认为
  • 00:11:35
    尽管Dario没有足够的科学背景
  • 00:11:37
    来评估AI在生物学领域的具体影响
  • 00:11:39
    但是可以肯定的是
  • 00:11:40
    AI将在任何计算科学领域加速进步
  • 00:11:43
    DeepSeek R1的发布就是一个很好的例子
  • 00:11:46
    展示了AI在新范式下的巨大进步潜力
  • 00:11:49
    而且这种快速的进步趋势将延续下去
  • 00:11:51
    带来更多的突破
  • 00:11:53
    不过,对于具体的AGI时间线
  • 00:11:55
    内森业表示难以预测
  • 00:11:57
    他认为到2030年之后
  • 00:11:59
    可能会出现具有重大地缘政治影响的AGI
  • 00:12:02
    尽管如此,内森也指出
  • 00:12:04
    AI技术的发展已经对地缘政治产生了影响
  • 00:12:07
    比如,在印度和巴基斯坦的选举中
  • 00:12:09
    人们接收到的AI语音电话
  • 00:12:11
    让他们误以为是在与政治家对话
  • 00:12:14
    此外
  • 00:12:14
    美国最近通过的禁止AI扩散出口管制框架
  • 00:12:17
    限制了对某些国家的云计算和GPU销售
  • 00:12:21
    即使这些国家与地缘政治冲突无关
  • 00:12:23
    这种做法也表明美国对AI技术的担忧
  • 00:12:27
    另外就是英伟达最近大幅削减了今年的H20芯片生产计划
  • 00:12:31
    原本计划生产200万个
  • 00:12:33
    但是最终取消了所有订单
  • 00:12:35
    这个举动表明
  • 00:12:36
    Nvidia可能担心H20芯片会受到进一步的出口限制
  • 00:12:40
    随后三人又聊回了技术方面
  • 00:12:42
    主要集中在推理架构中的关键技术
  • 00:12:45
    首先,在Transformer架构中
  • 00:12:47
    注意力机制是核心的组件之一
  • 00:12:49
    通过计算每个token与其他token之间的相对连接性
  • 00:12:52
    它能够让模型理解上下文中各个单词之间的关系
  • 00:12:55
    而不仅仅是参数本身
  • 00:12:57
    在注意力机制中
  • 00:12:58
    有三个核心组成部分
  • 00:13:00
    分别是查询(Query)、键(Key)和值(Value)
  • 00:13:02
    通常简称为QKV
  • 00:13:04
    这些矩阵在计算过程中相乘
  • 00:13:06
    从而确定每个token与其他token之间的关系
  • 00:13:09
    查询是模型试图获取信息的目标
  • 00:13:12
    键和值则用来检索这些信息
  • 00:13:14
    在自回归模型中
  • 00:13:15
    模型会逐个生成token
  • 00:13:17
    并且在每次生成的时候更新KV缓存
  • 00:13:20
    KV缓存里存的是之前所有token的压缩表示
  • 00:13:23
    而模型在生成下一个token的时候
  • 00:13:26
    会参考这个缓存
  • 00:13:27
    应该说
  • 00:13:28
    KV缓存的使用极大地提高了推理效率
  • 00:13:30
    因为它避免了重复计算
  • 00:13:32
    不过
  • 00:13:33
    注意力机制也存在一个显著的缺点
  • 00:13:35
    那就是它的内存成本与上下文长度成正比
  • 00:13:39
    这意味着,随着上下文长度的增加
  • 00:13:41
    内存需求也会迅速增长
  • 00:13:43
    这对于大规模推理服务构成了挑战
  • 00:13:46
    对于长序列上下文
  • 00:13:47
    内森提到了一些新的注意力机制
  • 00:13:49
    可以通过优化内存使用
  • 00:13:51
    来提高模型处理长序列的能力
  • 00:13:53
    比方说Gemini就拥有业界最长的上下文长度
  • 00:13:56
    高达200万token
  • 00:13:58
    这主要得益于Google在TPU架构上的优化
  • 00:14:01
    对于输入和输出Token的价格为什么存在差异
  • 00:14:04
    内森指出
  • 00:14:05
    这主要是因为生成Token的过程不是并行的
  • 00:14:08
    具体来说,输入一个查询的时候
  • 00:14:10
    可以并行计算所有Token的KV缓存
  • 00:14:13
    而生成一个Token的时候
  • 00:14:14
    必须顺序地读取整个模型和KV缓存
  • 00:14:17
    计算下一个Token
  • 00:14:18
    并将新生成的Token及其KV缓存
  • 00:14:21
    追加到缓存中
  • 00:14:22
    因此,生成Token的计算复杂度
  • 00:14:24
    要远高于输入Token
  • 00:14:26
    通常,API提供商对输入Token的收费
  • 00:14:29
    大约为输出Token的四分之一
  • 00:14:31
    就是因为输入Token可以批量处理
  • 00:14:33
    而输出Token则需要逐个生成
  • 00:14:36
    而DeepSeek R1模型在推理成本方面表现出色
  • 00:14:39
    每百万输出Token的成本仅为2美元
  • 00:14:42
    而OpenAI的GPT-4则高达60美元
  • 00:14:45
    这种成本上的差异
  • 00:14:46
    主要源于DeepSeek在模型架构上的创新
  • 00:14:49
    包括通过MLA注意力机制
  • 00:14:51
    将内存使用节省了80%到90%,
  • 00:14:54
    以及使用局部-全局注意力和滑动窗口机制等其他优化技术
  • 00:14:59
    对于各个模型的表现
  • 00:15:00
    Lex做了一个简单的哲学问题测试
  • 00:15:02
    他自己认为
  • 00:15:03
    o1 Pro的表现最好,也最稳定
  • 00:15:06
    接下来是DeepSeek R1
  • 00:15:07
    Gemini Flash 2.0排在第三
  • 00:15:09
    而o3 mini则排在最后
  • 00:15:11
    尽管o3 mini在头脑风暴中的表现要优于R1
  • 00:15:15
    但是在开放性哲学问题上的表现较差
  • 00:15:17
    这其中
  • 00:15:18
    DeepSeek R1展示了完整的思考链
  • 00:15:21
    这种透明的思考过程
  • 00:15:22
    对于欣赏智能和推理过程的人来说
  • 00:15:25
    具有极大的吸引力
  • 00:15:26
    通过观察这种思考路径
  • 00:15:28
    可以看到智能系统的非线性思维过程
  • 00:15:30
    类似于詹姆斯·乔伊斯的《尤利塞斯》或《芬尼根的守灵夜》中的思维过程
  • 00:15:34
    夜中的思维过程
  • 00:15:35
    关于Nvidia股票的下跌
  • 00:15:36
    Lex提到主要是由于DeepSeek的发布
  • 00:15:39
    引发了市场对Nvidia GPU需求减少的担忧
  • 00:15:42
    不过,这种担忧可能被夸大了
  • 00:15:44
    Nvidia GPU的需求仍然很高
  • 00:15:46
    尤其是在数据中心领域
  • 00:15:48
    而且AI的进步
  • 00:15:49
    可能还会进一步推动对高性能计算的需求
  • 00:15:52
    这将有利于Nvidia等公司
  • 00:15:54
    接下来一大块的内容是讨论训练集训与数据中心的建设
  • 00:15:58
    迪伦指出
  • 00:15:59
    数据中心的电力消耗在过去几十年中逐渐增加
  • 00:16:02
    预计到2028年或2030年
  • 00:16:05
    这一比例可能达到10%。
  • 00:16:07
    这个数字对于AI公司来说显得尤为重要
  • 00:16:10
    Anthropic和OpenAI等公司认为
  • 00:16:12
    现有的电力消耗水平远远不够
  • 00:16:15
    未来需要更多的电力支持
  • 00:16:17
    集群建设主要分为两种类型
  • 00:16:19
    分别是分布式集群和集中式集群
  • 00:16:22
    分布式集群在全球范围内或者美国境内广泛分布
  • 00:16:26
    主要用于处理推理任务
  • 00:16:27
    这种模式在AI服务中非常常见
  • 00:16:30
    比如Word Copilot、Apple Intelligence等等
  • 00:16:33
    而集中式集群则主要用来训练大型模型
  • 00:16:36
    以GPT-3和GPT-4为例
  • 00:16:38
    GPT-4使用了20000块A100 GPU进行训练
  • 00:16:41
    耗电量达到了15到20兆瓦
  • 00:16:44
    另外,随着技术的进步
  • 00:16:45
    GPU的功耗也在不断增加
  • 00:16:47
    比如H100 GPU的功耗从400瓦提升到了700瓦
  • 00:16:52
    加上其他硬件设备
  • 00:16:53
    每块GPU的总功耗大约为1200到1400瓦
  • 00:16:56
    因此
  • 00:16:57
    大规模集群的建设不仅需要大量的电力支持
  • 00:17:00
    还需要高效的冷却系统和强大的网络连接
  • 00:17:03
    在数据中心的设计和扩展方面
  • 00:17:06
    迪伦举了几个例子
  • 00:17:07
    比如Meta最初的数据中心设计是呈H型的
  • 00:17:11
    通过连接多个这样的模块来实现扩展
  • 00:17:13
    起初,Meta部署了16000块GPU
  • 00:17:16
    最终扩展到24000块GPU
  • 00:17:19
    不过,由于GPU的高故障率
  • 00:17:21
    只有大约16000块GPU用于实际的训练
  • 00:17:23
    其余作为备用
  • 00:17:25
    随着时间的推移
  • 00:17:26
    Meta的数据中心规模不断扩大
  • 00:17:28
    目前LLaMA 4的训练使用了大约100000块GPU
  • 00:17:32
    计划扩展到128000块GPU
  • 00:17:34
    考虑到每块GPU大约消耗1400瓦的电力
  • 00:17:37
    这意味着数据中心的总电力消耗
  • 00:17:40
    从2022年的大约15兆瓦
  • 00:17:42
    增加到2024年的大约150兆瓦
  • 00:17:45
    实现了近10倍的增长
  • 00:17:46
    Elon Musk的XAI
  • 00:17:48
    在数据中心建设方面也展现了极高的热情和决心
  • 00:17:52
    XAI在2022年开始建设数据中心
  • 00:17:54
    并且迅速成为全球最大的GPU集群
  • 00:17:57
    规模达到200000块GPU
  • 00:17:59
    为了支持如此庞大的计算需求
  • 00:18:01
    XAI在田纳西州孟菲斯市
  • 00:18:03
    购买了一座废弃的电器工厂
  • 00:18:05
    并且进行了大规模的基础设施改造
  • 00:18:08
    其中包括升级变电站、部署移动电源生成系统、连接天然气管道
  • 00:18:13
    以及建设天然气发电厂
  • 00:18:15
    此外
  • 00:18:15
    XAI还引入了特斯拉的Megapack电池储能系统
  • 00:18:18
    来确保电力供应的稳定性
  • 00:18:20
    并且使用工业级冷水机来冷却服务器
  • 00:18:24
    而相比之下
  • 00:18:25
    OpenAI在亚利桑那州和德克萨斯州阿本纳建设的数据中心计划
  • 00:18:28
    更是令人震惊
  • 00:18:30
    据OpenAI官方宣布
  • 00:18:31
    这个数据中心的总电力消耗将达到2200兆瓦
  • 00:18:35
    其中大约1800兆瓦会直接用于芯片运算
  • 00:18:38
    这个规模相当于一个小城市的电力消耗
  • 00:18:41
    足以支持大规模的模型预训练和后训练任务
  • 00:18:44
    OpenAI的Stargate项目
  • 00:18:45
    正是想通过多吉瓦级的数据中心
  • 00:18:48
    来加速AI模型的发展
  • 00:18:50
    特别是在强化学习、计算机视觉等前沿领域
  • 00:18:53
    迪伦还特别提到了一个值得大家注意的点
  • 00:18:56
    那就是被称为幕后英雄的冷却和电气系统
  • 00:18:59
    他举了一个例子
  • 00:19:00
    那就是在训练过程中
  • 00:19:02
    计算和权重交换之间的电力消耗差异极大
  • 00:19:05
    在模型训练的每一步中
  • 00:19:07
    计算任务会消耗大量的电力
  • 00:19:10
    如果计算和通信不能完美重叠
  • 00:19:13
    GPU可能会进入空闲状态
  • 00:19:15
    导致电力消耗出现尖峰
  • 00:19:17
    这种尖峰可能会导致数据中心的电力设施过载
  • 00:19:20
    甚至引发故障
  • 00:19:22
    为了解决这个问题
  • 00:19:23
    Meta在PyTorch中添加了一个名为`PowerPlant no blowup`的操作符
  • 00:19:27
    这个操作符能在权重交换期间
  • 00:19:30
    让GPU计算一些虚拟数据
  • 00:19:32
    从而避免电力消耗的剧烈波动
  • 00:19:34
    而特斯拉则采用了一种不同的方法
  • 00:19:36
    即使用大量的Tesla Mega Packs来解决电力的管理问题
  • 00:19:40
    虽然每家公司都有自己的解决方案
  • 00:19:43
    但是Meta的做法是公开且透明的
  • 00:19:45
    而且可以通过简单的操作符调整
  • 00:19:47
    来优化电力使用
  • 00:19:49
    此外,迪伦指出
  • 00:19:50
    传统的数据中心冷却系统主要依赖于空气冷却
  • 00:19:53
    包括金属散热器、热管和风扇等组件
  • 00:19:57
    不过,随着计算能力的提升
  • 00:19:58
    传统的空气冷却系统已经无法满足需求
  • 00:20:01
    谷歌的TPU已经使用了多年的水冷系统
  • 00:20:04
    但是对于GPU
  • 00:20:06
    大规模的水冷系统还没有普及
  • 00:20:08
    Nvidia已经在最新一代的高端GPU中
  • 00:20:10
    强制要求使用水冷系统
  • 00:20:12
    特斯拉则在现有的GPU中采用了大规模水冷系统
  • 00:20:16
    比如在Memphis数据中心
  • 00:20:18
    就有90个大型水冷机
  • 00:20:20
    这种冷却系统不仅能提高冷却效率
  • 00:20:22
    还能提高数据中心的整体性能
  • 00:20:25
    在集群规模竞赛中
  • 00:20:26
    特斯拉目前处于领先地位
  • 00:20:28
    Memphis数据中心拥有200000个GPU
  • 00:20:30
    其中包括100000个H100和100000个H20
  • 00:20:33
    Meta和OpenAI紧随其后
  • 00:20:35
    分别拥有128000和100000个GPU
  • 00:20:38
    虽然其他公司拥有更多的GPU
  • 00:20:40
    但是这些GPU通常分散在不同的地区
  • 00:20:43
    因此,特斯拉的单体集群规模
  • 00:20:45
    在当前竞赛中占据优势
  • 00:20:47
    预计到今年年底
  • 00:20:49
    Anthropic和Amazon将建设一个包含400
  • 00:20:51
    000个Trainium 2芯片的集群
  • 00:20:54
    Meta和OpenAI也有计划在未来几年内
  • 00:20:56
    将GPU集群规模扩大到500000到700000个
  • 00:21:00
    这些大规模的GPU集群主要用来训练预训练任务
  • 00:21:03
    不过,随着现有数据集的趋于饱和
  • 00:21:05
    预训练阶段的扩展空间有限
  • 00:21:07
    相比之下
  • 00:21:08
    后训练阶段将消耗更多的计算资源
  • 00:21:11
    这些任务包括模型的自我训练、模拟环境中的任务执行
  • 00:21:15
    以及复杂的推理任务等等
  • 00:21:17
    传统的FLOPS指标可能已经不再完全适用于这些任务
  • 00:21:20
    因此未来可能会出现新的性能评估指标
  • 00:21:23
    来更好地反映这些复杂任务的计算需求
  • 00:21:26
    对于目前的几家云计算大厂
  • 00:21:29
    迪伦指出
  • 00:21:30
    Google Cloud虽然在某些方面表现强劲
  • 00:21:32
    但是在整体市场份额上
  • 00:21:34
    Google Cloud排名第三
  • 00:21:35
    微软排名第二,亚马逊则遥遥领先
  • 00:21:38
    微软看似市场份额较大
  • 00:21:40
    但是它主要是在企业级许可证(比如Microsoft Office 365)中占有很大比例
  • 00:21:45
    实际上差距更大
  • 00:21:47
    亚马逊之所以领先
  • 00:21:48
    是因为使用AWS更为便捷
  • 00:21:50
    而且在许多情况下更为经济实惠
  • 00:21:53
    此外,AWS是最早进入市场的
  • 00:21:55
    一旦用户开始使用,切换成本极高
  • 00:21:58
    而且存在高额的转换费用
  • 00:22:01
    AWS为亚马逊贡献了超过80%的利润
  • 00:22:03
    甚至可能超过90%,
  • 00:22:05
    盈利能力惊人
  • 00:22:07
    尽管AWS的用户界面仍然显得有些笨拙
  • 00:22:11
    亚马逊的服务质量更优
  • 00:22:13
    自主研发的硬件更是降低了成本结构
  • 00:22:16
    包括存储、CPU和网络等传统的云服务
  • 00:22:19
    在数据库领域
  • 00:22:20
    亚马逊的五大收入产品中
  • 00:22:22
    有四个与数据库相关,比如Redshift
  • 00:22:25
    这进一步巩固了它的市场地位
  • 00:22:27
    谷歌的硬件团队虽然拥有TPU等优秀产品
  • 00:22:30
    但是这些硬件主要用在内部服务
  • 00:22:33
    而非面向外部客户
  • 00:22:35
    相比之下,Nvidia从成立之初
  • 00:22:37
    就专注在为外部客户提供高性能的计算解决方案
  • 00:22:41
    在《英伟达之道》一书中
  • 00:22:43
    就阐述了Nvidia的整个企业文化
  • 00:22:45
    其实都是围绕这个目标构建的
  • 00:22:47
    Nvidia通过优化CUDA软件库
  • 00:22:49
    迅速适应高性能计算的新需求
  • 00:22:52
    这与谷歌的服务模式截然不同
  • 00:22:54
    在硬件领域
  • 00:22:55
    Nvidia的优势难以被Intel和AMD等竞争对手超越
  • 00:22:59
    尽管AMD和Intel的硬件在某些方面优于Nvidia
  • 00:23:02
    但是软件支持相对不足
  • 00:23:04
    尤其是对于开源库的支持
  • 00:23:06
    Intel目前面临严峻的挑战
  • 00:23:08
    市场份额不断下滑
  • 00:23:10
    尤其是在服务器和PC市场
  • 00:23:12
    苹果的M1芯片、Nvidia和Qualcomm的PC芯片
  • 00:23:15
    以及各个超大规模数据中心自研的ARM服务器芯片
  • 00:23:18
    都在侵蚀Intel的市场份额
  • 00:23:20
    另外,Intel在AI芯片领域进展缓慢
  • 00:23:23
    并且在移动市场错失良机
  • 00:23:25
    导致它失去了技术领先地位
  • 00:23:27
    尽管Intel正在努力追赶
  • 00:23:29
    但是前景仍不明朗
  • 00:23:31
    迪伦认为,在未来的AI竞赛中
  • 00:23:34
    单一公司独占鳌头的可能性比较小
  • 00:23:36
    许多公司将会在AI的不同领域受益
  • 00:23:39
    不仅局限于训练最佳的模型
  • 00:23:41
    像Meta就可以通过其庞大的用户基础和多样化的产品线
  • 00:23:45
    从AI中获得巨大的收益
  • 00:23:47
    对于OpenAI来说
  • 00:23:48
    尽管在大语言模型领域占据优势
  • 00:23:50
    但是在商业模式面临很大挑战
  • 00:23:53
    ChatGPT虽然价值巨大
  • 00:23:56
    未来
  • 00:23:56
    OpenAI还需探索其他的应用领域
  • 00:23:59
    比如推理、代码生成和机器人等等
  • 00:24:01
    来实现可持续发展
  • 00:24:03
    总的来说
  • 00:24:04
    像谷歌和Meta这些公司拥有更广泛的业务组合
  • 00:24:08
    可以从AI中获得多重收益
  • 00:24:10
    而像OpenAI和Anthropic这些专注于先进模型的公司
  • 00:24:13
    必须不断创新
  • 00:24:14
    才能保持竞争力
  • 00:24:16
    访谈接近尾声,在有关Agent的话题上
  • 00:24:19
    迪伦认为,目前刚刚进入推理阶段
  • 00:24:22
    可能还需要一两年,然后才是Agent
  • 00:24:25
    虽然人们现在可以尝试Agent的能力
  • 00:24:27
    让代理持续几分钟甚至几小时
  • 00:24:30
    自主地执行任务
  • 00:24:31
    但是最大的问题是
  • 00:24:33
    就像制造业中的六西格玛一样
  • 00:24:35
    每增加一个步骤
  • 00:24:36
    即使是最先进的系统也会降低整体的性能
  • 00:24:39
    即使最好的语言模型在基准测试中表现良好
  • 00:24:43
    但是它们也并不是100%准确的
  • 00:24:45
    因为存在噪声
  • 00:24:46
    因此
  • 00:24:47
    如何达到足够的可靠性仍然是一个挑战
  • 00:24:50
    这与自动驾驶类似
  • 00:24:51
    而足够的可靠性
  • 00:24:53
    在一个开放、混乱的网络环境中是不可能实现的
  • 00:24:56
    就像在互联网历史上
  • 00:24:58
    航空公司和酒店虽然有很强的动力让自己的网站工作良好
  • 00:25:02
    但是预订机票的界面通常非常糟糕
  • 00:25:05
    想象一下
  • 00:25:06
    AI Agent能否处理这些网站
  • 00:25:08
    就连人类用户都经常在预订机票时感到困惑
  • 00:25:12
    如果航空公司能够把网站优化的更易于AI处理
  • 00:25:15
    那么这将会带来显著的经济利益
  • 00:25:18
    在编程方面
  • 00:25:19
    AI Agent已经取得了显著的成果
  • 00:25:21
    比如代码补全、函数生成和代码审查等功能
  • 00:25:24
    已经得到了广泛应用
  • 00:25:26
    软件工程Agent不仅可以进行单元测试或者编译
  • 00:25:30
    还可以检查整个代码库
  • 00:25:31
    这是普通工程师无法做到的
  • 00:25:34
    因此,软件工程的成本将大幅下降
  • 00:25:37
    这将导致不同的市场,比方在中国
  • 00:25:40
    由于软件工程师的成本较低
  • 00:25:42
    企业更倾向于构建自己的技术栈
  • 00:25:44
    而不是使用平台SaaS
  • 00:25:46
    因此
  • 00:25:47
    编程的大语言模型在中国的采用程度较低
  • 00:25:50
    因为工程师成本较低
  • 00:25:52
    但是
  • 00:25:52
    当每个公司都能以低成本和快速的方式
  • 00:25:55
    构建自己的业务逻辑时
  • 00:25:57
    将不会再选择使用平台SaaS
  • 00:25:59
    而是会选择构建定制化的解决方案
  • 00:26:01
    从而提高效率
  • 00:26:03
    所以说,软件工程领域的进步
  • 00:26:05
    将会导致软件工程师的成本急剧下降
  • 00:26:08
    不过
  • 00:26:08
    这并不意味着软件工程师会突然失业
  • 00:26:11
    而是工作性质会发生变化
  • 00:26:13
    人类将在AI系统中扮演更重要的角色
  • 00:26:16
    人类需要监督和修正代码,进行调试
  • 00:26:19
    并且设计最佳的解决方案
  • 00:26:21
    AI可以来提供多种选项
  • 00:26:23
    但是人类需要判断哪个更好
  • 00:26:25
    因此
  • 00:26:26
    软件工程师需要具备高水平的编程技能
  • 00:26:29
    并且成为某个领域的专家
  • 00:26:30
    最后
  • 00:26:31
    内森还介绍了一下自己Ai2实验室的Tulu开源模型
  • 00:26:34
    并且跟DeepSeek V3做了一些对比
  • 00:26:37
    在平均基准测试上略高一分
  • 00:26:40
    具体内容我们就不多展开说了
  • 00:26:42
    对这个模型有兴趣的观众
  • 00:26:43
    可以去看一下他们的官网
  • 00:26:45
    好了
  • 00:26:45
    以上就是Lex Fridman这次5小时播客的主要内容了
  • 00:26:49
    其实很多内容在我们频道的很多节目中
  • 00:26:52
    都陆陆续续覆盖到了
  • 00:26:53
    这次三个人相当于做了一个通盘的回顾和总结
  • 00:26:56
    不得不说
  • 00:26:57
    Lex的节目真是令人看得发狂
  • 00:26:59
    希望大飞这期节目能帮大家节省下几个小时的时间
  • 00:27:03
    其间总结的比较仓促,难免会有错误
  • 00:27:06
    欢迎大家指出,我及时改正
  • 00:27:08
    感谢大家的观看,我们下期再见
Tags
  • DeepSeek
  • AI生态系统
  • 模型训练
  • 推理能力
  • 开放权重
  • 数据隐私
  • 电力消耗
  • 数据中心
  • AGI
  • Nvidia