00:00:00
大家好,这里是最佳拍档,我是小飞
00:00:03
今天是2025年3月14日
00:00:05
国际国内科技同行卷天卷地拼业绩
00:00:08
大事小事一件又一件
00:00:10
小飞照常为您逐一汇总播报
00:00:12
每天听一听,前沿动态一秒知
00:00:15
我们先来关注一下本期要闻提示
00:00:18
1
00:00:19
斯坦福开源OctoTools框架,无需训练
00:00:22
推理性能提升10%。
00:00:24
2
00:00:25
清华联合博世推出Chameleon:
00:00:27
快慢双系统解决复杂道路拓扑
00:00:30
3
00:00:30
OpenAI推出智能体构建神器
00:00:33
四行代码快速调用API
00:00:35
4
00:00:36
超聚变推出AI政法一体机
00:00:38
效率提升三倍
00:00:39
5
00:00:40
德国团队推出开源模型FIORA
00:00:42
质谱识别准确率提升至49%。
00:00:45
6
00:00:46
清华团队开源RIFLEx
00:00:49
一行代码突破视频生成时长限制
00:00:53
7
00:00:53
LLMs
00:00:54
txt生成器v2发布,处理速度快10倍
00:00:58
8
00:00:58
腾讯AI新方法降本99%,
00:01:01
大模型训练效率突破
00:01:03
首先,让我们把目光聚焦到国际赛道
00:01:06
1
00:01:07
斯坦福开源OctoTools框架,无需训练
00:01:09
推理性能提升10%。
00:01:11
斯坦福大学推出开源智能体框架OctoTools
00:01:15
该框架无需额外训练
00:01:16
通过标准化工具卡和规划器提升复杂任务处理效率
00:01:20
传统方法在复杂任务中效果有限
00:01:23
OctoTools则通过创新框架设计
00:01:25
有效解决效率问题
00:01:27
提升跨领域推理能力
00:01:29
测试显示
00:01:30
OctoTools在16项任务中平均准确率提升9.3%,
00:01:34
多步推理任务性能最高提升10.6%。
00:01:38
该框架在MathVista等测试中表现突出
00:01:41
工具使用能力显著优于现有方案
00:01:44
2
00:01:45
李飞飞团队推出500美元家务机器人
00:01:48
李飞飞团队最新研发出一款低价家务机器人
00:01:51
这款机器人能完成多种家庭清洁工作
00:01:54
核心部件成本控制在500美元以内
00:01:57
这款机器人的研究采用了Transformer架构开发算法
00:02:01
通过自回归技术处理全身动作
00:02:03
结合多模态观察机制协调行为
00:02:06
实验数据显示
00:02:07
新系统WB VIMA任务成功率远超同类产品:
00:02:10
比DP3高13倍,比RGB DP高21倍
00:02:15
其测试涵盖5项典型家务场景:
00:02:17
房屋清洁、厕所打扫、垃圾处理、物品归架和衣物晾晒
00:02:22
BRS框架不仅全部完成任务
00:02:24
在数据收集效率、策略学习能力和用户体验三个维度均表现优异
00:02:30
3
00:02:30
Claude 3.7 Sonnet发布
00:02:32
编程能力大升级
00:02:34
Anthropic公司最新推出Claude 3.7 Sonnet大模型
00:02:38
这款AI在编程和写作能力上实现重大突破
00:02:42
新模型基于前代Claude 3.5 Sonnet升级
00:02:45
其编程水平已能对标OpenAI的o3 mini high模型
00:02:49
还能与671B参数的DeepSeek R1抗衡
00:02:52
实际测试显示
00:02:54
部分性能甚至超越这些顶尖模型
00:02:56
Claude 3.7 Sonnet特别擅长处理大厂工程师级任务
00:03:01
它能理解复杂代码库
00:03:02
还能生成完整可运行代码
00:03:05
在最新WebDev竞技场榜单中
00:03:07
该模型以超第二名100多分的优势登顶
00:03:10
原冠军Claude 3.5 Sonnet已退居次席
00:03:14
4
00:03:15
OpenAI推出智能体构建神器
00:03:17
四行代码快速调用API
00:03:19
OpenAI近日发布全新智能体开发工具Responses API
00:03:23
该工具是现有Chat Completions API的重要升级版本
00:03:27
整合了Assistants API的核心功能
00:03:30
Responses API提供增强版网络搜索能力
00:03:33
可实现快速响应并附带权威来源引用
00:03:36
基准测试显示在搜索准确率成绩上
00:03:39
GPT-4o版本达90%,精简版达88%,
00:03:44
显著提升应答准确性和用户体验
00:03:47
开发者仅需四行基础代码即可快速接入该API
00:03:51
大幅降低智能体开发门槛
00:03:53
新工具将多类型API功能整合为统一接口
00:03:56
为构建智能体应用提供一站式解决方案
00:04:00
5
00:04:00
Meta推出ExFM框架
00:04:02
万亿参数大模型实现高效落地
00:04:05
Meta AI团队本周发布全新ExFM框架
00:04:08
系统性解决了大规模模型落地难题
00:04:11
该方案在保持工业级效率的同时
00:04:14
使万亿参数模型应用成为可能
00:04:16
该框架有两大突破:
00:04:18
第一,实现零额外延迟
00:04:21
ExFM采用外部蒸馏和数据增强系统DAS
00:04:25
教师模型的预测离线生成
00:04:27
学生模型的服务延迟与基线一致
00:04:29
第二,资源利用率显著提升
00:04:32
通过1对多的知识迁移
00:04:34
单个基础模型可支持多个任务
00:04:36
这使得模型构建成本大幅降低
00:04:39
实测数据显示
00:04:40
ExFM在内部及公开数据集上表现优异
00:04:44
框架还具备跨场景应用能力
00:04:46
单个模型能同时处理广告系统的召回筛选、粗排序和精排序流程
00:04:52
6
00:04:52
德国团队推出开源模型FIORA
00:04:55
质谱识别准确率提升至49%。
00:04:58
近期
00:04:59
一款新型开源模型FIORA引发业内关注
00:05:02
其由德国联邦材料研究与测试研究所与柏林自由大学联合开发
00:05:07
基于图神经网络技术
00:05:08
专门模拟分子在串联质谱中的碎裂过程
00:05:11
可精准预测碎离子生成概率
00:05:14
FIORA通过分析分子键的邻域信息
00:05:16
推导出分子碎裂模式
00:05:18
其预测精度已超越当前主流算法ICEBERG和CFM ID
00:05:23
同时能预测保留时间与碰撞截面等关键参数
00:05:26
借助GPU加速技术
00:05:28
该模型可实现化合物注释快速验证
00:05:31
有效扩充光谱数据库
00:05:33
实验数据显示
00:05:34
传统方法对未知化合物的识别召回率仅为34%。
00:05:38
FIORA将质谱匹配准确率提升至49%,
00:05:42
尤其在识别结构差异大的化合物时优势明显
00:05:45
即使在Tanimoto相似度仅0.2至0.3的低匹配条件下
00:05:49
模型仍能保持0.8以上的中位余弦相似度
00:05:53
展现出强大的抗干扰能力
00:05:56
7
00:05:56
AI守护濒危动物!
00:05:58
NVIDIA联手国际组织推进野生动物保护
00:06:01
联合国数据显示
00:06:02
全球超100万个物种正面临灭绝威胁
00:06:05
而AI技术正为生态保护带来新突破
00:06:09
西雅图非营利机构AI2开发的EarthRanger平台
00:06:12
已投入野生动物保护工作
00:06:14
该平台整合超百个数据源
00:06:16
包括监控摄像头、声音传感器和卫星数据
00:06:20
为保护区管理者提供实时动态地图
00:06:23
借助NVIDIA Hopper GPU的强大算力
00:06:26
EarthRanger能精准预测大象靠近人类聚居区的行动轨迹
00:06:30
系统基于全球最大规模的大象迁徙数据库
00:06:33
帮助工作人员及时引导象群远离危险区域
00:06:36
有效减少人象冲突事件发生
00:06:38
8
00:06:39
谷歌投资Anthropic细节曝光:
00:06:41
占股14% 无控制权
00:06:44
《纽约时报》最新披露了谷歌对AI公司Anthropic的投资内情
00:06:49
目前
00:06:49
谷歌持有Anthropic公司14%的股份
00:06:52
但不具备任何投票权
00:06:54
同时,谷歌既没有董事会席位
00:06:57
也没有董事会观察员资格
00:06:59
这意味着谷歌虽投入重金
00:07:01
却无法参与公司决策
00:07:03
公开资料显示
00:07:04
2023年谷歌与Anthropic签署了可转换债券协议
00:07:08
截至目前
00:07:09
谷歌已累计注资超过30亿美元
00:07:12
按协议规定
00:07:13
谷歌将在今年9月追加7.5亿美元投资
00:07:17
谷歌持股比例上限设定为15%,
00:07:20
显示其仍有增持空间
00:07:22
这家成立仅三年的AI公司发展迅猛
00:07:24
Anthropic于2021年5月创立
00:07:27
2023年推出AI产品Claude后引发广泛关注
00:07:31
在最近一轮融资中
00:07:32
该公司成功募集35亿美元资金
00:07:35
估值达到615亿美元
00:07:37
成为AI领域备受瞩目的新星
00:07:40
9
00:07:40
OpenAI投资CoreWeave
00:07:42
金额达119亿美元
00:07:45
OpenAI与云服务商CoreWeave签署协议
00:07:48
为期五年
00:07:49
总金额119亿美元
00:07:51
根据协议
00:07:51
OpenAI将获得CoreWeave价值3.5亿美元的股权
00:07:55
此举推动CoreWeave即将进行的首次公开募股
00:07:59
预计其市值将达350亿美元
00:08:01
上周,CoreWeave已提交上市申请
00:08:04
目前尚未确定发行价和具体时间
00:08:06
该公司专注提供AI专用云服务
00:08:09
截至2024年底运营着32个数据中心
00:08:12
配备超过25万台英伟达GPU
00:08:14
这些资源使CoreWeave成为全球领先的AI云计算服务商之一
00:08:19
此次合作将强化双方在人工智能基础设施领域的布局
00:08:23
10
00:08:24
LLMs
00:08:24
txt生成器v2发布,处理速度快10倍
00:08:28
LLMs
00:08:29
txt生成器迎来重大版本更新
00:08:32
v2版本性能大幅提升
00:08:34
该工具可将网站内容快速转换为AI专用文本文件
00:08:39
特别适合开发者和人工智能应用场景使用
00:08:42
新版由@firecrawl_dev团队主导开发
00:08:45
系统获得官方llmstxt端点全面支持
00:08:49
实测显示
00:08:50
文本转换速度较前代提升10倍
00:08:53
处理效率实现跨越式突破
00:08:55
升级后,其算法结构得到优化
00:08:58
端点支持能力显著增强
00:09:00
用户只需输入网站URL地址
00:09:02
即可快速生成结构化文本文件
00:09:05
同时
00:09:06
它还拓展了在AI训练等领域的应用范围
00:09:09
为开发者和研究人员提供更高效的数据处理方案
00:09:14
11
00:09:14
Cerebras扩建六座数据中心
00:09:16
推理速度提升十倍
00:09:18
Cerebras Systems宣布在北美和欧洲新建六座数据中心
00:09:22
这些设施将大幅提升人工智能推理能力
00:09:25
扩建计划可显著增强公司算力
00:09:28
更好支持各类AI应用
00:09:30
美国将承担85%计算任务
00:09:32
目前
00:09:33
已投入运营的三座数据中心位于:
00:09:35
加州圣克拉拉、斯托克顿以及德州达拉斯
00:09:39
此次扩建属于公司2025年整体战略规划
00:09:43
部分设施将与阿联酋G42公司合作运营
00:09:47
蒙特利尔新数据中心由比特数字旗下Enovum公司管理
00:09:51
该中心计划2025年7月启用
00:09:53
其AI推理速度将达到现有GPU的十倍
00:09:56
接下来
00:09:57
我们看看国内同行带来的好消息
00:10:00
1.10秒生成4分钟音乐!
00:10:02
8GB显存可运行
00:10:04
登顶Hugging Face趋势榜
00:10:06
最近
00:10:07
一款名为"谛韵"的AI音乐生成工具DiffRhythm模型引发关注
00:10:12
其由西北工业大学与香港中文大学深圳校区联合研发
00:10:16
仅需10秒即可生成4分45秒完整歌曲
00:10:19
包含人声与伴奏
00:10:21
该模型采用全扩散架构设计
00:10:23
大幅简化传统音乐生成流程
00:10:26
用户只需提供歌词和风格提示
00:10:29
系统就能生成专业级立体声音频
00:10:32
生成音乐采样率达到行业标准44.1kHz
00:10:35
显存需求仅8GB
00:10:37
支持本地设备部署
00:10:39
目前该成果已登上Hugging Face趋势榜首位
00:10:43
2
00:10:43
清华联合博世推出Chameleon:
00:10:45
快慢双系统解决复杂道路拓扑
00:10:48
清华大学与博世中央研究院联合开发了自动驾驶新方法Chameleon
00:10:53
这种方法通过独特的快慢双系统设计
00:10:56
在复杂道路场景中实现了效率与精度的平衡
00:10:59
Chameleon采用快慢双系统交替的神经符号方法
00:11:02
快系统负责快速处理常规场景
00:11:05
慢系统专注解决复杂道路拓扑问题
00:11:08
这种分工模式无需额外训练即可适应不同道路环境
00:11:12
在OpenLane V2验证集测试中
00:11:14
Chameleon展现出优异性能
00:11:16
使用少量样本时
00:11:18
其表现与完全监督训练的模型相当
00:11:20
部分任务甚至略有超越
00:11:23
车道线段间拓扑识别准确率达85.6%,
00:11:26
车道与交通元素间拓扑识别准确率达87.4%。
00:11:31
该方法为自动驾驶系统提供了新的技术路径
00:11:34
特别在应对复杂交叉路口、多车道变换等场景时展现出优势
00:11:39
研究人员表示
00:11:40
这种双系统架构未来可扩展到更多自动驾驶应用场景
00:11:45
3
00:11:45
字节公开文生图全流程技术
00:11:48
字节跳动豆包大模型团队发布最新文生图技术报告
00:11:52
该报告详细介绍了Seedream 2.0图像生成模型的核心技术
00:11:56
模型在数据处理、预训练、后训练三个阶段均有创新
00:12:01
其技术改进显著提升图像生成准确率和美学表现
00:12:05
经过多轮迭代
00:12:06
模型在图像文本对齐和美学质量方面进步明显
00:12:11
生成图像结构更合理
00:12:12
文本理解准确性超过主流模型
00:12:16
中文处理能力尤其突出
00:12:18
生成文字可用率达78%,
00:12:20
完美响应率达63%。
00:12:23
两项数据均领先行业水平
00:12:25
报告完整披露了模型训练全流程技术细节
00:12:29
4
00:12:30
超聚变推出AI政法一体机
00:12:32
效率提升三倍
00:12:33
超聚变公司与视联动力联合推出AI政法大模型一体机
00:12:38
该设备命名为FusionOne
00:12:40
专为政法单位打造
00:12:42
FusionOne集成DeepSeek技术
00:12:44
具备快速部署特点
00:12:46
用户操作流程大幅简化
00:12:47
实现开箱即用
00:12:49
设备采用一站式打包设计
00:12:51
包含推理引擎、模型和加速算子
00:12:54
用户无需复杂配置,可直接投入使用
00:12:57
据统计
00:12:58
该设备能将部署时间缩短至原来的三分之一
00:13:01
政法单位处理效率显著提升
00:13:04
工作人员可更专注核心业务
00:13:06
产品特别强调安全性
00:13:08
为政法系统提供可靠办公解决方案
00:13:11
目前已在部分政法单位试点应用
00:13:14
5
00:13:14
清华团队开源RIFLEx
00:13:17
一行代码突破视频生成时长限制
00:13:20
近日
00:13:21
清华大学朱军团队推出全新视频生成方案RIFLEx
00:13:25
该方案仅需一行代码,无需额外训练
00:13:28
就能突破现有模型的视频长度限制
00:13:31
RIFLEx通过降低内在频率的技术手段
00:13:34
有效避免生成视频的内容重复问题
00:13:37
原本只能生成5到6秒的视频
00:13:39
现在可直接延长至10秒
00:13:41
且保持高质量输出
00:13:43
该方案还具备多维度扩展能力:
00:13:45
支持时间维度外推延长视频时长;
00:13:48
支持空间维度外推提升画质并修复缺失画面;
00:13:52
还能实现时空联合外推
00:13:54
同步扩展视频的时间和空间内容
00:13:56
目前RIFLEx已开源
00:13:59
适配所有基于RoPE架构的视频生成模型
00:14:02
实验显示
00:14:03
该方案在CogvideoX等主流模型上均表现优异
00:14:07
6
00:14:07
新框架实现3倍无损加速!
00:14:10
90分钟生成10万Token
00:14:12
支持DeepSeek R1和QwQ
00:14:14
北京通用人工智能研究院团队推出全新框架TOKENSWIFT
00:14:19
该框架将生成10万Token的耗时从近5小时压缩到90分钟
00:14:23
实现3倍无损加速
00:14:25
该技术专门优化大语言模型的长文本生成效率
00:14:29
其核心创新包括两方面:
00:14:31
第一,多Token并行生成技术
00:14:35
团队通过增加线性层
00:14:36
让模型单次前传即可生成多个草稿Token
00:14:40
系统基于常用短语频率自动复用高频内容
00:14:43
大幅减少模型调用次数
00:14:45
第二,动态更新关键值缓存
00:14:48
该方法保留初始缓存内容
00:14:50
按重要性逐步替换后续缓存
00:14:52
这种策略有效控制了缓存容量增长
00:14:55
显著降低运算延迟
00:14:57
目前
00:14:58
该框架已适配DeepSeek R1和QwQ等主流大模型
00:15:02
为超长文本生成提供高效解决方案
00:15:06
7
00:15:06
阿里开源R1 Omni模型:
00:15:08
多模态作用透明可见
00:15:10
近期
00:15:11
通义实验室推出开源模型R1 Omni
00:15:14
该模型专为视频全模态场景研发
00:15:17
其最大亮点是透明性
00:15:19
它能清晰展示音频、视频在任务中的作用
00:15:22
例如,情绪识别时
00:15:24
R1 Omni可明确显示关键判断信息
00:15:27
测试显示,在同分布数据集上
00:15:30
R1 Omni比基线模型平均提升超35%。
00:15:34
相比监督微调模型
00:15:35
其UAR指标提升超10%。
00:15:38
在跨分布测试中
00:15:39
WAR和UAR提升均突破13%。
00:15:43
8
00:15:44
江苏首例AIGC侵权案宣判:
00:15:46
AI作品版权归谁?
00:15:48
近日
00:15:49
常熟法院审结江苏首例AIGC著作权侵权案
00:15:53
该案系全国第二例同类案件
00:15:56
首次明确含有人类智力成果的AI生成内容受法律保护
00:16:00
AIGC创作者林晨使用AI工具创作《伴心》画作后
00:16:05
发现作品遭他人复制并在社交平台传播
00:16:08
历经9个月维权诉讼
00:16:10
法院最终判定侵权方需在小红书账号连续3天公开致歉
00:16:15
并赔偿经济损失及合理费用共1万元
00:16:18
法院重点审查了林晨的创作过程
00:16:21
审理发现
00:16:22
其通过多次修改提示词、调整图片细节
00:16:25
展现了个性化选择与创造性编排
00:16:28
这些智力投入最终使AI生成内容获得著作权认定
00:16:32
该判决为AI创作领域版权保护提供了重要司法范例
00:16:37
9
00:16:37
清华团队推出APB框架:
00:16:39
长文本处理提速10倍
00:16:41
清华大学NLP实验室联合中南大学、北京邮电大学及腾讯微信AI实验室
00:16:47
提出APB序列并行推理方案
00:16:50
该框架通过两项核心技术实现突破:
00:16:53
稀疏注意力机制与局部KV缓存压缩技术
00:16:56
APB方案有效解决了长文本的语义依赖难题
00:17:00
在保持模型性能的前提下
00:17:02
显著提升了超长文本预填充效率
00:17:05
实测数据显示
00:17:06
处理12.8万长度的文本时
00:17:09
APB展现出明显优势:
00:17:11
相比传统Flash Attention加速约10倍
00:17:13
性能超越完整注意力计算
00:17:16
与英伟达Star Attention对比
00:17:18
APB仍能实现1.6倍的加速效果
00:17:21
新框架在计算效率方面实现全面突破
00:17:24
实验证明
00:17:25
APB在运行速度、计算资源消耗和整体性能三个维度均达到业界领先水平
00:17:31
10
00:17:32
腾讯AI新方法降本99%,
00:17:34
大模型训练效率突破
00:17:36
腾讯AI Lab联合香港中文大学深圳校区研发出新技术
00:17:40
名为无监督前缀微调(UPFT)的方法
00:17:44
只需调整模型生成的前8到32个词
00:17:46
就能让大语言模型达到传统监督训练效果
00:17:50
该方法大幅降低训练成本和时间
00:17:52
同时提升模型性能
00:17:54
在GSM8K、Math500等复杂数学推理测试中
00:17:58
UPFT表现优异
00:18:00
使用Qwen2.5 Math 7B模型时
00:18:03
UPFT在U Hard数据集准确率达54.5%,
00:18:07
比传统方法提升3.2%。
00:18:10
DeepSeek R1 Distill Qwen 7B模型测试中
00:18:13
UPFT准确率61.6%,
00:18:16
领先传统方法5.2个百分点
00:18:18
经实测验证
00:18:19
该方法可将采样成本降低99%。
00:18:22
11
00:18:24
云天励飞联合高校推出200万组视频编辑数据集
00:18:28
视频编辑技术虽快速发展
00:18:30
但现有算法仍存在画面连贯性差、图文匹配度低的问题
00:18:35
为解决这一难题
00:18:36
云天励飞联合香港中文大学等多所高校研发出Señorita 2M数据集
00:18:42
该数据集包含200万组高质量视频编辑案例
00:18:46
覆盖18类编辑任务
00:18:48
所有数据均由多组训练后的专家模型生成
00:18:51
保障了数据质量和多样性
00:18:53
研究团队采用多重过滤机制严格把控质量
00:18:57
包括第一
00:18:58
自动检测编辑失败样本
00:19:00
第二,图文一致性验证
00:19:02
第三,原视频与编辑视频相似度比对
00:19:06
而经过筛选的优质数据已用于训练新一代视频编辑模型
00:19:10
好了,以上就是本期的全部内容
00:19:12
感谢收听,我们下期再见