【AI动态】每日科技新闻汇总 | 20250314 | 斯坦福开源OctoTools框架 | 清华联合博世推出Chameleon | OpenAI推出智能体构建神器 | 清华团队开源RIFLEx

00:19:15
https://www.youtube.com/watch?v=IxNuARWyRCA

Resumen

TLDR本期节目汇聚了当前国际国内科技前沿动态,包括斯坦福大学的OctoTools框架、清华的Chameleon系统、OpenAI的Responses API等。OctoTools提升多步推理任务准确率,Chameleon在复杂道路场景中实现效率和精度的平衡,而OpenAI的工具简化智能体开发过程。人工智能领域的发展持续推进,各类新技术在不同应用场景中展现出巨大潜力。这些进展不仅推动了研究发展,也为行业应用提供了新的可能性。

Para llevar

  • 🔍 斯坦福推出OctoTools框架,推理性能提升10%!
  • 🤖 清华的Chameleon系统有效解决复杂道路问题!
  • ⚙️ OpenAI新API简化智能体开发,开发者只需四行代码!
  • 📊 Meta发布ExFM框架,万亿参数模型高效落地!
  • 🐾 AI助力保护濒危动物,实时预测大象迁徙路径!
  • 💻 Claude 3.7 Sonnet编程能力提升,胜过传统模型!
  • 🛡️ 超聚变FusionOne专为政法单位设计,效率提升三倍!
  • 📈 腾讯AI新方法大幅降本99%,训练效率提升显著!

Cronología

  • 00:00:00 - 00:05:00

    在2025年3月14日的科技快讯中,斯坦福大学开源的OctoTools框架无需训练,推理性能提升超过10%。陶飞飞团队推出一种500美元的家务机器人,成功率显著高于同类产品。此外,OpenAI发布了新的智能体构建工具,使得开发接口大大简化,极大降低了开发门槛。

  • 00:05:00 - 00:10:00

    德国团队联合开发的开源模型FIORA,通过图神经网络技术将质谱识别准确率提升至49%。NVIDIA与AI2合作的EarthRanger平台,借助AI技术为濒危动物提供保护。谷歌对AI公司Anthropic的投资曝光,持股14%却不具备控制权。

  • 00:10:00 - 00:19:15

    国内方面,清华大学与博世联合推出的Chameleon方法,有效解决复杂道路拓扑问题。字节跳动公开了Seedream 2.0文生图技术,显著提升图像生成质量。超聚变推出的AI政法一体机,显著提高了政法单位的工作效率。

Mapa mental

Vídeo de preguntas y respuestas

  • OctoTools框架的主要功能是什么?

    OctoTools框架无需额外训练,可通过标准化工具卡和规划器提升复杂任务处理效率,推理性能提升10%。

  • 清华大学与博世联合开发的Chameleon系统特点是什么?

    Chameleon系统采用快慢双系统交替设计,在复杂道路环境中实现了效率与精度的平衡,无需额外训练。

  • Meta推出的ExFM框架解决了什么问题?

    ExFM框架系统性解决了大规模模型的落地难题,实现零额外延迟和显著提高资源利用率。

  • Claude 3.7 Sonnet大模型有什么改进?

    Claude 3.7 Sonnet在编程和写作能力上大幅提升,能生成完整可运行代码,在WebDev榜单上名列前茅。

  • FusionOne设备主要针对哪个行业?

    FusionOne是一款专为政法单位设计的AI大模型一体机,实现了快速部署,提升了工作效率。

Ver más resúmenes de vídeos

Obtén acceso instantáneo a resúmenes gratuitos de vídeos de YouTube gracias a la IA.
Subtítulos
zh-Hans
Desplazamiento automático:
  • 00:00:00
    大家好,这里是最佳拍档,我是小飞
  • 00:00:03
    今天是2025年3月14日
  • 00:00:05
    国际国内科技同行卷天卷地拼业绩
  • 00:00:08
    大事小事一件又一件
  • 00:00:10
    小飞照常为您逐一汇总播报
  • 00:00:12
    每天听一听,前沿动态一秒知
  • 00:00:15
    我们先来关注一下本期要闻提示
  • 00:00:18
    1
  • 00:00:19
    斯坦福开源OctoTools框架,无需训练
  • 00:00:22
    推理性能提升10%。
  • 00:00:24
    2
  • 00:00:25
    清华联合博世推出Chameleon:
  • 00:00:27
    快慢双系统解决复杂道路拓扑
  • 00:00:30
    3
  • 00:00:30
    OpenAI推出智能体构建神器
  • 00:00:33
    四行代码快速调用API
  • 00:00:35
    4
  • 00:00:36
    超聚变推出AI政法一体机
  • 00:00:38
    效率提升三倍
  • 00:00:39
    5
  • 00:00:40
    德国团队推出开源模型FIORA
  • 00:00:42
    质谱识别准确率提升至49%。
  • 00:00:45
    6
  • 00:00:46
    清华团队开源RIFLEx
  • 00:00:49
    一行代码突破视频生成时长限制
  • 00:00:53
    7
  • 00:00:53
    LLMs
  • 00:00:54
    txt生成器v2发布,处理速度快10倍
  • 00:00:58
    8
  • 00:00:58
    腾讯AI新方法降本99%,
  • 00:01:01
    大模型训练效率突破
  • 00:01:03
    首先,让我们把目光聚焦到国际赛道
  • 00:01:06
    1
  • 00:01:07
    斯坦福开源OctoTools框架,无需训练
  • 00:01:09
    推理性能提升10%。
  • 00:01:11
    斯坦福大学推出开源智能体框架OctoTools
  • 00:01:15
    该框架无需额外训练
  • 00:01:16
    通过标准化工具卡和规划器提升复杂任务处理效率
  • 00:01:20
    传统方法在复杂任务中效果有限
  • 00:01:23
    OctoTools则通过创新框架设计
  • 00:01:25
    有效解决效率问题
  • 00:01:27
    提升跨领域推理能力
  • 00:01:29
    测试显示
  • 00:01:30
    OctoTools在16项任务中平均准确率提升9.3%,
  • 00:01:34
    多步推理任务性能最高提升10.6%。
  • 00:01:38
    该框架在MathVista等测试中表现突出
  • 00:01:41
    工具使用能力显著优于现有方案
  • 00:01:44
    2
  • 00:01:45
    李飞飞团队推出500美元家务机器人
  • 00:01:48
    李飞飞团队最新研发出一款低价家务机器人
  • 00:01:51
    这款机器人能完成多种家庭清洁工作
  • 00:01:54
    核心部件成本控制在500美元以内
  • 00:01:57
    这款机器人的研究采用了Transformer架构开发算法
  • 00:02:01
    通过自回归技术处理全身动作
  • 00:02:03
    结合多模态观察机制协调行为
  • 00:02:06
    实验数据显示
  • 00:02:07
    新系统WB VIMA任务成功率远超同类产品:
  • 00:02:10
    比DP3高13倍,比RGB DP高21倍
  • 00:02:15
    其测试涵盖5项典型家务场景:
  • 00:02:17
    房屋清洁、厕所打扫、垃圾处理、物品归架和衣物晾晒
  • 00:02:22
    BRS框架不仅全部完成任务
  • 00:02:24
    在数据收集效率、策略学习能力和用户体验三个维度均表现优异
  • 00:02:30
    3
  • 00:02:30
    Claude 3.7 Sonnet发布
  • 00:02:32
    编程能力大升级
  • 00:02:34
    Anthropic公司最新推出Claude 3.7 Sonnet大模型
  • 00:02:38
    这款AI在编程和写作能力上实现重大突破
  • 00:02:42
    新模型基于前代Claude 3.5 Sonnet升级
  • 00:02:45
    其编程水平已能对标OpenAI的o3 mini high模型
  • 00:02:49
    还能与671B参数的DeepSeek R1抗衡
  • 00:02:52
    实际测试显示
  • 00:02:54
    部分性能甚至超越这些顶尖模型
  • 00:02:56
    Claude 3.7 Sonnet特别擅长处理大厂工程师级任务
  • 00:03:01
    它能理解复杂代码库
  • 00:03:02
    还能生成完整可运行代码
  • 00:03:05
    在最新WebDev竞技场榜单中
  • 00:03:07
    该模型以超第二名100多分的优势登顶
  • 00:03:10
    原冠军Claude 3.5 Sonnet已退居次席
  • 00:03:14
    4
  • 00:03:15
    OpenAI推出智能体构建神器
  • 00:03:17
    四行代码快速调用API
  • 00:03:19
    OpenAI近日发布全新智能体开发工具Responses API
  • 00:03:23
    该工具是现有Chat Completions API的重要升级版本
  • 00:03:27
    整合了Assistants API的核心功能
  • 00:03:30
    Responses API提供增强版网络搜索能力
  • 00:03:33
    可实现快速响应并附带权威来源引用
  • 00:03:36
    基准测试显示在搜索准确率成绩上
  • 00:03:39
    GPT-4o版本达90%,精简版达88%,
  • 00:03:44
    显著提升应答准确性和用户体验
  • 00:03:47
    开发者仅需四行基础代码即可快速接入该API
  • 00:03:51
    大幅降低智能体开发门槛
  • 00:03:53
    新工具将多类型API功能整合为统一接口
  • 00:03:56
    为构建智能体应用提供一站式解决方案
  • 00:04:00
    5
  • 00:04:00
    Meta推出ExFM框架
  • 00:04:02
    万亿参数大模型实现高效落地
  • 00:04:05
    Meta AI团队本周发布全新ExFM框架
  • 00:04:08
    系统性解决了大规模模型落地难题
  • 00:04:11
    该方案在保持工业级效率的同时
  • 00:04:14
    使万亿参数模型应用成为可能
  • 00:04:16
    该框架有两大突破:
  • 00:04:18
    第一,实现零额外延迟
  • 00:04:21
    ExFM采用外部蒸馏和数据增强系统DAS
  • 00:04:25
    教师模型的预测离线生成
  • 00:04:27
    学生模型的服务延迟与基线一致
  • 00:04:29
    第二,资源利用率显著提升
  • 00:04:32
    通过1对多的知识迁移
  • 00:04:34
    单个基础模型可支持多个任务
  • 00:04:36
    这使得模型构建成本大幅降低
  • 00:04:39
    实测数据显示
  • 00:04:40
    ExFM在内部及公开数据集上表现优异
  • 00:04:44
    框架还具备跨场景应用能力
  • 00:04:46
    单个模型能同时处理广告系统的召回筛选、粗排序和精排序流程
  • 00:04:52
    6
  • 00:04:52
    德国团队推出开源模型FIORA
  • 00:04:55
    质谱识别准确率提升至49%。
  • 00:04:58
    近期
  • 00:04:59
    一款新型开源模型FIORA引发业内关注
  • 00:05:02
    其由德国联邦材料研究与测试研究所与柏林自由大学联合开发
  • 00:05:07
    基于图神经网络技术
  • 00:05:08
    专门模拟分子在串联质谱中的碎裂过程
  • 00:05:11
    可精准预测碎离子生成概率
  • 00:05:14
    FIORA通过分析分子键的邻域信息
  • 00:05:16
    推导出分子碎裂模式
  • 00:05:18
    其预测精度已超越当前主流算法ICEBERG和CFM ID
  • 00:05:23
    同时能预测保留时间与碰撞截面等关键参数
  • 00:05:26
    借助GPU加速技术
  • 00:05:28
    该模型可实现化合物注释快速验证
  • 00:05:31
    有效扩充光谱数据库
  • 00:05:33
    实验数据显示
  • 00:05:34
    传统方法对未知化合物的识别召回率仅为34%。
  • 00:05:38
    FIORA将质谱匹配准确率提升至49%,
  • 00:05:42
    尤其在识别结构差异大的化合物时优势明显
  • 00:05:45
    即使在Tanimoto相似度仅0.2至0.3的低匹配条件下
  • 00:05:49
    模型仍能保持0.8以上的中位余弦相似度
  • 00:05:53
    展现出强大的抗干扰能力
  • 00:05:56
    7
  • 00:05:56
    AI守护濒危动物!
  • 00:05:58
    NVIDIA联手国际组织推进野生动物保护
  • 00:06:01
    联合国数据显示
  • 00:06:02
    全球超100万个物种正面临灭绝威胁
  • 00:06:05
    而AI技术正为生态保护带来新突破
  • 00:06:09
    西雅图非营利机构AI2开发的EarthRanger平台
  • 00:06:12
    已投入野生动物保护工作
  • 00:06:14
    该平台整合超百个数据源
  • 00:06:16
    包括监控摄像头、声音传感器和卫星数据
  • 00:06:20
    为保护区管理者提供实时动态地图
  • 00:06:23
    借助NVIDIA Hopper GPU的强大算力
  • 00:06:26
    EarthRanger能精准预测大象靠近人类聚居区的行动轨迹
  • 00:06:30
    系统基于全球最大规模的大象迁徙数据库
  • 00:06:33
    帮助工作人员及时引导象群远离危险区域
  • 00:06:36
    有效减少人象冲突事件发生
  • 00:06:38
    8
  • 00:06:39
    谷歌投资Anthropic细节曝光:
  • 00:06:41
    占股14% 无控制权
  • 00:06:44
    《纽约时报》最新披露了谷歌对AI公司Anthropic的投资内情
  • 00:06:49
    目前
  • 00:06:49
    谷歌持有Anthropic公司14%的股份
  • 00:06:52
    但不具备任何投票权
  • 00:06:54
    同时,谷歌既没有董事会席位
  • 00:06:57
    也没有董事会观察员资格
  • 00:06:59
    这意味着谷歌虽投入重金
  • 00:07:01
    却无法参与公司决策
  • 00:07:03
    公开资料显示
  • 00:07:04
    2023年谷歌与Anthropic签署了可转换债券协议
  • 00:07:08
    截至目前
  • 00:07:09
    谷歌已累计注资超过30亿美元
  • 00:07:12
    按协议规定
  • 00:07:13
    谷歌将在今年9月追加7.5亿美元投资
  • 00:07:17
    谷歌持股比例上限设定为15%,
  • 00:07:20
    显示其仍有增持空间
  • 00:07:22
    这家成立仅三年的AI公司发展迅猛
  • 00:07:24
    Anthropic于2021年5月创立
  • 00:07:27
    2023年推出AI产品Claude后引发广泛关注
  • 00:07:31
    在最近一轮融资中
  • 00:07:32
    该公司成功募集35亿美元资金
  • 00:07:35
    估值达到615亿美元
  • 00:07:37
    成为AI领域备受瞩目的新星
  • 00:07:40
    9
  • 00:07:40
    OpenAI投资CoreWeave
  • 00:07:42
    金额达119亿美元
  • 00:07:45
    OpenAI与云服务商CoreWeave签署协议
  • 00:07:48
    为期五年
  • 00:07:49
    总金额119亿美元
  • 00:07:51
    根据协议
  • 00:07:51
    OpenAI将获得CoreWeave价值3.5亿美元的股权
  • 00:07:55
    此举推动CoreWeave即将进行的首次公开募股
  • 00:07:59
    预计其市值将达350亿美元
  • 00:08:01
    上周,CoreWeave已提交上市申请
  • 00:08:04
    目前尚未确定发行价和具体时间
  • 00:08:06
    该公司专注提供AI专用云服务
  • 00:08:09
    截至2024年底运营着32个数据中心
  • 00:08:12
    配备超过25万台英伟达GPU
  • 00:08:14
    这些资源使CoreWeave成为全球领先的AI云计算服务商之一
  • 00:08:19
    此次合作将强化双方在人工智能基础设施领域的布局
  • 00:08:23
    10
  • 00:08:24
    LLMs
  • 00:08:24
    txt生成器v2发布,处理速度快10倍
  • 00:08:28
    LLMs
  • 00:08:29
    txt生成器迎来重大版本更新
  • 00:08:32
    v2版本性能大幅提升
  • 00:08:34
    该工具可将网站内容快速转换为AI专用文本文件
  • 00:08:39
    特别适合开发者和人工智能应用场景使用
  • 00:08:42
    新版由@firecrawl_dev团队主导开发
  • 00:08:45
    系统获得官方llmstxt端点全面支持
  • 00:08:49
    实测显示
  • 00:08:50
    文本转换速度较前代提升10倍
  • 00:08:53
    处理效率实现跨越式突破
  • 00:08:55
    升级后,其算法结构得到优化
  • 00:08:58
    端点支持能力显著增强
  • 00:09:00
    用户只需输入网站URL地址
  • 00:09:02
    即可快速生成结构化文本文件
  • 00:09:05
    同时
  • 00:09:06
    它还拓展了在AI训练等领域的应用范围
  • 00:09:09
    为开发者和研究人员提供更高效的数据处理方案
  • 00:09:14
    11
  • 00:09:14
    Cerebras扩建六座数据中心
  • 00:09:16
    推理速度提升十倍
  • 00:09:18
    Cerebras Systems宣布在北美和欧洲新建六座数据中心
  • 00:09:22
    这些设施将大幅提升人工智能推理能力
  • 00:09:25
    扩建计划可显著增强公司算力
  • 00:09:28
    更好支持各类AI应用
  • 00:09:30
    美国将承担85%计算任务
  • 00:09:32
    目前
  • 00:09:33
    已投入运营的三座数据中心位于:
  • 00:09:35
    加州圣克拉拉、斯托克顿以及德州达拉斯
  • 00:09:39
    此次扩建属于公司2025年整体战略规划
  • 00:09:43
    部分设施将与阿联酋G42公司合作运营
  • 00:09:47
    蒙特利尔新数据中心由比特数字旗下Enovum公司管理
  • 00:09:51
    该中心计划2025年7月启用
  • 00:09:53
    其AI推理速度将达到现有GPU的十倍
  • 00:09:56
    接下来
  • 00:09:57
    我们看看国内同行带来的好消息
  • 00:10:00
    1.10秒生成4分钟音乐!
  • 00:10:02
    8GB显存可运行
  • 00:10:04
    登顶Hugging Face趋势榜
  • 00:10:06
    最近
  • 00:10:07
    一款名为"谛韵"的AI音乐生成工具DiffRhythm模型引发关注
  • 00:10:12
    其由西北工业大学与香港中文大学深圳校区联合研发
  • 00:10:16
    仅需10秒即可生成4分45秒完整歌曲
  • 00:10:19
    包含人声与伴奏
  • 00:10:21
    该模型采用全扩散架构设计
  • 00:10:23
    大幅简化传统音乐生成流程
  • 00:10:26
    用户只需提供歌词和风格提示
  • 00:10:29
    系统就能生成专业级立体声音频
  • 00:10:32
    生成音乐采样率达到行业标准44.1kHz
  • 00:10:35
    显存需求仅8GB
  • 00:10:37
    支持本地设备部署
  • 00:10:39
    目前该成果已登上Hugging Face趋势榜首位
  • 00:10:43
    2
  • 00:10:43
    清华联合博世推出Chameleon:
  • 00:10:45
    快慢双系统解决复杂道路拓扑
  • 00:10:48
    清华大学与博世中央研究院联合开发了自动驾驶新方法Chameleon
  • 00:10:53
    这种方法通过独特的快慢双系统设计
  • 00:10:56
    在复杂道路场景中实现了效率与精度的平衡
  • 00:10:59
    Chameleon采用快慢双系统交替的神经符号方法
  • 00:11:02
    快系统负责快速处理常规场景
  • 00:11:05
    慢系统专注解决复杂道路拓扑问题
  • 00:11:08
    这种分工模式无需额外训练即可适应不同道路环境
  • 00:11:12
    在OpenLane V2验证集测试中
  • 00:11:14
    Chameleon展现出优异性能
  • 00:11:16
    使用少量样本时
  • 00:11:18
    其表现与完全监督训练的模型相当
  • 00:11:20
    部分任务甚至略有超越
  • 00:11:23
    车道线段间拓扑识别准确率达85.6%,
  • 00:11:26
    车道与交通元素间拓扑识别准确率达87.4%。
  • 00:11:31
    该方法为自动驾驶系统提供了新的技术路径
  • 00:11:34
    特别在应对复杂交叉路口、多车道变换等场景时展现出优势
  • 00:11:39
    研究人员表示
  • 00:11:40
    这种双系统架构未来可扩展到更多自动驾驶应用场景
  • 00:11:45
    3
  • 00:11:45
    字节公开文生图全流程技术
  • 00:11:48
    字节跳动豆包大模型团队发布最新文生图技术报告
  • 00:11:52
    该报告详细介绍了Seedream 2.0图像生成模型的核心技术
  • 00:11:56
    模型在数据处理、预训练、后训练三个阶段均有创新
  • 00:12:01
    其技术改进显著提升图像生成准确率和美学表现
  • 00:12:05
    经过多轮迭代
  • 00:12:06
    模型在图像文本对齐和美学质量方面进步明显
  • 00:12:11
    生成图像结构更合理
  • 00:12:12
    文本理解准确性超过主流模型
  • 00:12:16
    中文处理能力尤其突出
  • 00:12:18
    生成文字可用率达78%,
  • 00:12:20
    完美响应率达63%。
  • 00:12:23
    两项数据均领先行业水平
  • 00:12:25
    报告完整披露了模型训练全流程技术细节
  • 00:12:29
    4
  • 00:12:30
    超聚变推出AI政法一体机
  • 00:12:32
    效率提升三倍
  • 00:12:33
    超聚变公司与视联动力联合推出AI政法大模型一体机
  • 00:12:38
    该设备命名为FusionOne
  • 00:12:40
    专为政法单位打造
  • 00:12:42
    FusionOne集成DeepSeek技术
  • 00:12:44
    具备快速部署特点
  • 00:12:46
    用户操作流程大幅简化
  • 00:12:47
    实现开箱即用
  • 00:12:49
    设备采用一站式打包设计
  • 00:12:51
    包含推理引擎、模型和加速算子
  • 00:12:54
    用户无需复杂配置,可直接投入使用
  • 00:12:57
    据统计
  • 00:12:58
    该设备能将部署时间缩短至原来的三分之一
  • 00:13:01
    政法单位处理效率显著提升
  • 00:13:04
    工作人员可更专注核心业务
  • 00:13:06
    产品特别强调安全性
  • 00:13:08
    为政法系统提供可靠办公解决方案
  • 00:13:11
    目前已在部分政法单位试点应用
  • 00:13:14
    5
  • 00:13:14
    清华团队开源RIFLEx
  • 00:13:17
    一行代码突破视频生成时长限制
  • 00:13:20
    近日
  • 00:13:21
    清华大学朱军团队推出全新视频生成方案RIFLEx
  • 00:13:25
    该方案仅需一行代码,无需额外训练
  • 00:13:28
    就能突破现有模型的视频长度限制
  • 00:13:31
    RIFLEx通过降低内在频率的技术手段
  • 00:13:34
    有效避免生成视频的内容重复问题
  • 00:13:37
    原本只能生成5到6秒的视频
  • 00:13:39
    现在可直接延长至10秒
  • 00:13:41
    且保持高质量输出
  • 00:13:43
    该方案还具备多维度扩展能力:
  • 00:13:45
    支持时间维度外推延长视频时长;
  • 00:13:48
    支持空间维度外推提升画质并修复缺失画面;
  • 00:13:52
    还能实现时空联合外推
  • 00:13:54
    同步扩展视频的时间和空间内容
  • 00:13:56
    目前RIFLEx已开源
  • 00:13:59
    适配所有基于RoPE架构的视频生成模型
  • 00:14:02
    实验显示
  • 00:14:03
    该方案在CogvideoX等主流模型上均表现优异
  • 00:14:07
    6
  • 00:14:07
    新框架实现3倍无损加速!
  • 00:14:10
    90分钟生成10万Token
  • 00:14:12
    支持DeepSeek R1和QwQ
  • 00:14:14
    北京通用人工智能研究院团队推出全新框架TOKENSWIFT
  • 00:14:19
    该框架将生成10万Token的耗时从近5小时压缩到90分钟
  • 00:14:23
    实现3倍无损加速
  • 00:14:25
    该技术专门优化大语言模型的长文本生成效率
  • 00:14:29
    其核心创新包括两方面:
  • 00:14:31
    第一,多Token并行生成技术
  • 00:14:35
    团队通过增加线性层
  • 00:14:36
    让模型单次前传即可生成多个草稿Token
  • 00:14:40
    系统基于常用短语频率自动复用高频内容
  • 00:14:43
    大幅减少模型调用次数
  • 00:14:45
    第二,动态更新关键值缓存
  • 00:14:48
    该方法保留初始缓存内容
  • 00:14:50
    按重要性逐步替换后续缓存
  • 00:14:52
    这种策略有效控制了缓存容量增长
  • 00:14:55
    显著降低运算延迟
  • 00:14:57
    目前
  • 00:14:58
    该框架已适配DeepSeek R1和QwQ等主流大模型
  • 00:15:02
    为超长文本生成提供高效解决方案
  • 00:15:06
    7
  • 00:15:06
    阿里开源R1 Omni模型:
  • 00:15:08
    多模态作用透明可见
  • 00:15:10
    近期
  • 00:15:11
    通义实验室推出开源模型R1 Omni
  • 00:15:14
    该模型专为视频全模态场景研发
  • 00:15:17
    其最大亮点是透明性
  • 00:15:19
    它能清晰展示音频、视频在任务中的作用
  • 00:15:22
    例如,情绪识别时
  • 00:15:24
    R1 Omni可明确显示关键判断信息
  • 00:15:27
    测试显示,在同分布数据集上
  • 00:15:30
    R1 Omni比基线模型平均提升超35%。
  • 00:15:34
    相比监督微调模型
  • 00:15:35
    其UAR指标提升超10%。
  • 00:15:38
    在跨分布测试中
  • 00:15:39
    WAR和UAR提升均突破13%。
  • 00:15:43
    8
  • 00:15:44
    江苏首例AIGC侵权案宣判:
  • 00:15:46
    AI作品版权归谁?
  • 00:15:48
    近日
  • 00:15:49
    常熟法院审结江苏首例AIGC著作权侵权案
  • 00:15:53
    该案系全国第二例同类案件
  • 00:15:56
    首次明确含有人类智力成果的AI生成内容受法律保护
  • 00:16:00
    AIGC创作者林晨使用AI工具创作《伴心》画作后
  • 00:16:05
    发现作品遭他人复制并在社交平台传播
  • 00:16:08
    历经9个月维权诉讼
  • 00:16:10
    法院最终判定侵权方需在小红书账号连续3天公开致歉
  • 00:16:15
    并赔偿经济损失及合理费用共1万元
  • 00:16:18
    法院重点审查了林晨的创作过程
  • 00:16:21
    审理发现
  • 00:16:22
    其通过多次修改提示词、调整图片细节
  • 00:16:25
    展现了个性化选择与创造性编排
  • 00:16:28
    这些智力投入最终使AI生成内容获得著作权认定
  • 00:16:32
    该判决为AI创作领域版权保护提供了重要司法范例
  • 00:16:37
    9
  • 00:16:37
    清华团队推出APB框架:
  • 00:16:39
    长文本处理提速10倍
  • 00:16:41
    清华大学NLP实验室联合中南大学、北京邮电大学及腾讯微信AI实验室
  • 00:16:47
    提出APB序列并行推理方案
  • 00:16:50
    该框架通过两项核心技术实现突破:
  • 00:16:53
    稀疏注意力机制与局部KV缓存压缩技术
  • 00:16:56
    APB方案有效解决了长文本的语义依赖难题
  • 00:17:00
    在保持模型性能的前提下
  • 00:17:02
    显著提升了超长文本预填充效率
  • 00:17:05
    实测数据显示
  • 00:17:06
    处理12.8万长度的文本时
  • 00:17:09
    APB展现出明显优势:
  • 00:17:11
    相比传统Flash Attention加速约10倍
  • 00:17:13
    性能超越完整注意力计算
  • 00:17:16
    与英伟达Star Attention对比
  • 00:17:18
    APB仍能实现1.6倍的加速效果
  • 00:17:21
    新框架在计算效率方面实现全面突破
  • 00:17:24
    实验证明
  • 00:17:25
    APB在运行速度、计算资源消耗和整体性能三个维度均达到业界领先水平
  • 00:17:31
    10
  • 00:17:32
    腾讯AI新方法降本99%,
  • 00:17:34
    大模型训练效率突破
  • 00:17:36
    腾讯AI Lab联合香港中文大学深圳校区研发出新技术
  • 00:17:40
    名为无监督前缀微调(UPFT)的方法
  • 00:17:44
    只需调整模型生成的前8到32个词
  • 00:17:46
    就能让大语言模型达到传统监督训练效果
  • 00:17:50
    该方法大幅降低训练成本和时间
  • 00:17:52
    同时提升模型性能
  • 00:17:54
    在GSM8K、Math500等复杂数学推理测试中
  • 00:17:58
    UPFT表现优异
  • 00:18:00
    使用Qwen2.5 Math 7B模型时
  • 00:18:03
    UPFT在U Hard数据集准确率达54.5%,
  • 00:18:07
    比传统方法提升3.2%。
  • 00:18:10
    DeepSeek R1 Distill Qwen 7B模型测试中
  • 00:18:13
    UPFT准确率61.6%,
  • 00:18:16
    领先传统方法5.2个百分点
  • 00:18:18
    经实测验证
  • 00:18:19
    该方法可将采样成本降低99%。
  • 00:18:22
    11
  • 00:18:24
    云天励飞联合高校推出200万组视频编辑数据集
  • 00:18:28
    视频编辑技术虽快速发展
  • 00:18:30
    但现有算法仍存在画面连贯性差、图文匹配度低的问题
  • 00:18:35
    为解决这一难题
  • 00:18:36
    云天励飞联合香港中文大学等多所高校研发出Señorita 2M数据集
  • 00:18:42
    该数据集包含200万组高质量视频编辑案例
  • 00:18:46
    覆盖18类编辑任务
  • 00:18:48
    所有数据均由多组训练后的专家模型生成
  • 00:18:51
    保障了数据质量和多样性
  • 00:18:53
    研究团队采用多重过滤机制严格把控质量
  • 00:18:57
    包括第一
  • 00:18:58
    自动检测编辑失败样本
  • 00:19:00
    第二,图文一致性验证
  • 00:19:02
    第三,原视频与编辑视频相似度比对
  • 00:19:06
    而经过筛选的优质数据已用于训练新一代视频编辑模型
  • 00:19:10
    好了,以上就是本期的全部内容
  • 00:19:12
    感谢收听,我们下期再见
Etiquetas
  • 斯坦福大学
  • 清华大学
  • OpenAI
  • 人工智能
  • 机器学习
  • 技术突破
  • 自动驾驶
  • 大模型
  • AI应用
  • 科技动态