推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺-热点观测站- 美好趣闻，让你美好瞬间

当前位置：首页 >> 综合 > 推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术
时间：2025-07-11 02:12:02人气：793编辑：utz
2025 年 1 月 20 日 Kimi k1.5 正式发布，推特伴随着工艺报告的热帖公布，有网友表示：“这应该是因为艺全球范围内，除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧！”
一时间，项工Kimi k1.5 成了话题王者。推特
但在一个月后的热帖 2 月 24 日，X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖，博主直言 k1.5 所用到的作团强化学习运算规则，其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。
消息一出，推特瞬间吸引了数万人关注。热帖
Kimi k1.5 背后的 SPPO 工艺
在这则爆料中，博主 Yue Wu 先是项工对 SPPO 进行了简单解释，并且附上了相关论文（https://arxiv.org/abs/2405.00675），简单来说，SPPO是一种自博弈运算规则，最初的动机来源于刻画广泛意义上的人类偏好，并且使用了如下图所示的平方损失函数：
值得一提的是，点开论文链接，你会发现原来 Yue Wu 和 Zhiqing Sun 同为这篇文章的第一作者。
紧接着，他开始对 SPPO 工艺进行解析：
通过迭代求解上式中的 theta_t，我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率（红色部分）作为奖励，并用常数近似基线（蓝色部分）。
让我们感兴趣的是，我们发现它与 RLHF 目标的策略梯度有着深层的联系：如果我们直接用普通的策略梯度优化 RLHF （人类反馈强化学习）目标会怎样？根据策略梯度定理，策略梯度实际上也具有平方损失形式（蓝色项是策略梯度中的基线）：
从数学上，我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体：
SPPO 中的胜率充当奖励函数（红色部分）。
分区函数项自然地成为（软）值函数（蓝色部分）。
那么这到底意味着什么呢？
标准策略梯度（PPO、GRPO、REINFORCE）在每一步都收集遵循当前策略的样本。
SPPO 在每次迭代开始时只采样一次，然后通过平方损失进行优化。
这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成！
上述分析揭示了大型语言模型（LLM）后训练阶段一个有趣的增长趋势：
离线 DPO（IPO、KTO 等）取代 RLHF（奖励模型 + 强化学习）
迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法
更加精细的迭代 → 回归到在线强化学习
鉴于 GRPO（Deepseek-R1）和平方损失（Kimi k1.5）的成功，端到端强化学习的强大作用愈发凸显，或许在大型语言模型（LLM）后训练阶段无需额外技巧——价值函数、广义优势估计（GAE），甚至梯度裁剪都无需使用。
另一个简单但有趣的发现是，他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。
在我们后续的研究 GPO 中，我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度，但它是以迭代的方式进行的。
SPPO 工艺背后的科研大牛
除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外，Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授，博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授，目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。
除此之外，2023 年至今他一共参与发布了 9 篇 Paper，其中 3 篇均为第一作者。
强大的学术背景之外，Wu Yue 的实习经历也非常加分。2022 年至 2024 年，他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间，Wu Yue 从事个性化联邦学习研究，并开发了一种基于混合模型的方法，该方法被 ICML 2023 接受发表；在字节美国 AI lab 时，他专注于药品发现领域的多构象生成，将分子动力学的物理先验纳入基于扩散的生成模型，相关成果被 ICML 2024 接受；来到 Meta 后，Wu Yue 又致力于词汇级别奖励建模和新架构设计，用于一般人类偏好和一般偏好优化，为生成式机器智能的增长做出了贡献。
雷峰网(公众号：雷峰网)还了解到，与他同为第一作者的 Zhiqing Sun ，目前已经从 CMU 毕业，并在今年 2 月加入 OpenAI。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。
非遗对话世界：BERRIN苝韵颜酒以文化为锚开启全球化征程
网站首页返回栏目
《友有游几天夏日限定》圆满收官：南波万夏日冒险全记录
标签：创业板指涨逾1%，沪指站稳3500点上方田亮、阿雅等明星助阵，抖音纪录片《欢迎你来到我的人生》上线《新说唱2025》明星制作人“洗牌”登场以年轻风暴颠覆哈圈过往
相关资讯
}
“丹娜丝”携强降雨继续作用南方北方闷热“上线”
}
月之暗面发布首款数学模型 k0
}
IDEA研究院发布DINO
}
《新说唱2025》明星制作人“洗牌”登场以年轻风暴颠覆哈圈过往
}
台湾一男子杀死妻子小姨子后直播逃亡动态
}
超4.42亿！端午档票房很给力
}
智源线虫登上Nature子刊封面，具身元年尾声深长
}
歌向西行・剧传薪火：原创音乐剧《轨迹》生动演绎西迁精神
}
多模态AI技术「涌现」，AI公司的「新机会」
}
点心X携手EWIS+举办《葵花女》特别放映夜：用点心连接世界的心
}
独家丨字节招兵买马，拟在欧洲设立AI研发中心
}
歌向西行・剧传薪火：原创音乐剧《轨迹》生动演绎西迁精神
热门频道
热点
知识
时尚
神舟十九号航天员乘组太空归来后首次公开亮相
有史以来最拉风的看片会！《风驰赛车手》导演陆伟揭秘幕后故事
2025-07-11 04:04 博搏云的生态蓝图：稳固住AGI全栈服务商的重要阵地
2025-07-11 04:03 成都市武侯区领导赴山西省流行音乐协会共探音乐产业发展新机遇
2025-07-11 04:03 Kimi 正在重新定义「AI 搜索」
2025-07-11 03:57 听花岛悬疑短剧《破晓》定档5月31日，探索人性深渊与亲情光辉
2025-07-11 03:51 会员积分兑、星钻免费看《临江仙》加更礼怎么看更划算?
2025-07-11 03:48 抖音助力非遗文旅消费，泉州、汕头、揭阳成网友最爱去的非遗小城
2025-07-11 03:06 当咖啡杯邂逅千年蜀韵：瑞幸首次联名非遗，带火三大四川瑰宝
2025-07-11 02:59 《哈哈哈哈哈5》方言挑战与文化碰撞，解锁四川风情新体验
2025-07-11 02:38 爱奇艺举办第五届“金豪笔编剧之夜” 62位编剧20部作品获表彰
2025-07-11 02:37 上海国际电影节展映排片表上线将放映430余部影片
2025-07-11 02:32 观众对好电影的需求始终强烈——2025文化强国建设高峰论坛“电影业高质量发展”论坛侧记
2025-07-11 02:23 王威廉最新创业项目：世界上第一个用于芯片设计和验证的 AI 智能体来了
2025-07-11 02:14 多模态AI技术「涌现」，AI公司的「新机会」
2025-07-11 02:10 揭秘百万年人类史！《寻古中国·东方人类百万年》开播
印度德里地区发生4.5级地震多地震感强烈
海信世俱杯AI焕新计划启动，AI真空磁场保鲜技术重构美食
2025-07-11 03:52 女子自曝怀孕期间摆烂上班丈夫是市副处？官方通报
2025-07-11 03:47 澳涞山庄实力破圈!斩获世界娱乐休闲产业大会黄金级合作,揽下百万大单开启发展新征程
2025-07-11 03:40 爱奇艺获“首届亚洲微短剧大奖”两项荣誉精品化显成效
2025-07-11 03:33 618解锁歌手同款音响——意大利多曼尼以声学重构专属你的空间叙事
2025-07-11 03:14 牵手五大顶尖高校教授 “云阙智能”打造AIGC智囊团
2025-07-11 02:43 爱奇艺获“首届亚洲微短剧大奖”两项荣誉精品化显成效
2025-07-11 02:42 朱芷瑩：连续二年闪耀戛纳的中国时尚艺人
2025-07-11 02:41 独家丨字节招兵买马，拟在欧洲设立AI研发中心
2025-07-11 02:22 阿里与上交大提出 LLM 长文本计算新解法：可处理文本长达 1900k 字节、效率提升 2.4 倍
2025-07-11 02:22 硅谷巨头要学会接受：「DeepSeek 现象」只是开始
2025-07-11 02:11 《英雄联盟：云顶之弈》庆祝6周年，云顶之弈时光机携专属玩家奖励回归
2025-07-11 02:02 十年“拾光”·共启新篇2025新鲜提案·黎里真实影像大会黎里对话顺利举办
2025-07-11 01:35 RASP技术，"入侵者"如何成为网络安全"守护神"？
2025-07-11 01:35 2025岳云鹏《非要唱》巡回演唱会北京站：用音乐讲最朴素的真心话
爱奇艺举办第五届“金豪笔编剧之夜” 62位编剧20部作品获表彰
朱芷瑩：连续二年闪耀戛纳的中国时尚艺人
2025-07-11 03:50 中方敦促也门胡塞武装维护红海水域航道保障
2025-07-11 03:50 IDEA研究院发布DINO
2025-07-11 03:44 上海国际电影节展映排片表上线将放映430余部影片
2025-07-11 03:40 点心X携手EWIS+举办《葵花女》特别放映夜：用点心连接世界的心
2025-07-11 03:19 牵手五大顶尖高校教授 “云阙智能”打造AIGC智囊团
2025-07-11 03:12 SIGGRAPH Asia 2024：传统与创新并存，3D 生成与具身智能热度上升
2025-07-11 02:27 中国青年电影人在戛纳受到瞩目
2025-07-11 02:24 抖音助力非遗文旅消费，泉州、汕头、揭阳成网友最爱去的非遗小城
2025-07-11 02:14 特朗普表示最近中美关系有所改善，外交部回应
2025-07-11 02:07 全面焕新无广告网易云音乐iPad端新版（beta）正式上线
2025-07-11 02:00 硅谷巨头要学会接受：「DeepSeek 现象」只是开始
2025-07-11 01:51 特斯拉首款无人驾驶 RobotTaxi，升级版 Optimus 还是画大饼？
2025-07-11 01:48 大模型时代的三道鸿沟：数据、成本与想象力
2025-07-11 01:28 大模型隐藏玩家上桌：DeepSeek 向左，面壁向右
海陆空全方位重大突破！这些硬核画面看不够
Kimi 数理化能跟 o1 掰手腕了？新模型 k1 有点儿强
2025-07-11 03:56 神舟十九号航天员乘组太空归来后首次公开亮相
2025-07-11 03:43 智源线虫登上Nature子刊封面，具身元年尾声深长
2025-07-11 03:29 机器人端侧模型的十字路口
2025-07-11 03:29 澳涞山庄实力破圈!斩获世界娱乐休闲产业大会黄金级合作,揽下百万大单开启发展新征程
2025-07-11 03:00 “众星云集”不是票房灵药
2025-07-11 02:53 智源线虫登上Nature子刊封面，具身元年尾声深长
2025-07-11 02:51 2025北京798国际儿童艺术周启幕——“静待花开”，用艺术滋养童心成长
2025-07-11 02:42 Harrison Chase：独创AI智能体「认知架构」，定制+极简加减法双驱动
2025-07-11 02:11 《长安的荔枝》定档6月7日打开另类古代职场视角
2025-07-11 02:03 当咖啡杯邂逅千年蜀韵：瑞幸首次联名非遗，带火三大四川瑰宝
2025-07-11 01:50 Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现
2025-07-11 01:47 从《人世间》到《苦尽柑来遇见你》情感疗愈是年代剧的核心竞争力
2025-07-11 01:24 问鼎「AI 之巅」，第四届全国人工智能大赛决赛在深举行
2025-07-11 01:22 清程极智 CEO 汤雄超：训推一体机并非 AI Infra 的未来
别再声讨零一万物了
歌手IU《花书签3》网易云音乐独家首发时隔8年再出翻唱专辑
2025-07-11 03:46 人大 Sora 思辩：Sora 到底懂不懂物理世界？
2025-07-11 03:36 爱奇艺获“首届亚洲微短剧大奖”两项荣誉精品化显成效
2025-07-11 03:32 《天下第一楼》600场演来如初见
2025-07-11 03:31 Kimi 数理化能跟 o1 掰手腕了？新模型 k1 有点儿强
2025-07-11 03:19 2024年IEEE Fellow名单揭晓：「视觉智能」领域十余位华人学者入选！
2025-07-11 02:35 听花岛悬疑短剧《破晓》定档5月31日，探索人性深渊与亲情光辉
2025-07-11 02:28 实测豆包1.5后，看到了字节不走捷径的底气
2025-07-11 02:17 “通用大脑”来了！MIT何恺明用大模型思维玩出机器人预训练新花样
2025-07-11 02:11 美图视觉大模型3.0：让设计师做甲方
2025-07-11 02:03 智源线虫登上Nature子刊封面，具身元年尾声深长
2025-07-11 01:52 大阪世博会中国馆举行中国电影日活动
2025-07-11 01:42 第16届巴黎中国电影节开幕
2025-07-11 01:41 通用3D机器视觉平台是不是伪命题？
2025-07-11 01:30 朱芷瑩：连续二年闪耀戛纳的中国时尚艺人

精彩推荐

热门标签

MediaTek 举办天玑开发者大会 MDDC2024，携手产业伙伴共创生成式 AI 新生态

《英雄联盟：云顶之弈》庆祝6周年，云顶之弈时光机携专属玩家奖励回归

田亮、阿雅等明星助阵，抖音纪录片《欢迎你来到我的人生》上线

谷歌计划将 Gemini 并入 Deepmind，下个月开始生效

“丹娜丝”携强降雨继续作用南方北方闷热“上线”

“2025影像亚洲中国电影放映周”在布达佩斯举办

简橙在线教育平台：王蕊瑜伽引领健康新时代，助力中老年重塑身心和谐

《英雄联盟：云顶之弈》庆祝6周年，云顶之弈时光机携专属玩家奖励回归

博搏云的生态蓝图：稳固住AGI全栈服务商的重要阵地

SIGGRAPH Asia 2024：传统与创新并存，3D 生成与具身智能热度上升

北斗星空爱心基金助力缤纷六一星光筑梦童心唱响未来

枫叶教育三十周年庆典大会暨文艺汇演盛大举行，绘就波澜壮阔发展画卷

4天7场演出，上海群文团队在3000米海拔牧场奏响“沪喀协奏曲”

国行 iPhone 16 相机控制也接入视觉智能了！可一键调用阶跃星辰智能助手「跃问」

北斗星空爱心基金助力缤纷六一星光筑梦童心唱响未来

几十个测试后，发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的

“众星云集”不是票房灵药

网易云音乐与张艺兴工作室达成合作打造 “船长归来”沉浸式系列企划

《新说唱2025》明星制作人“洗牌”登场以年轻风暴颠覆哈圈过往

十年“拾光”·共启新篇2025新鲜提案·黎里真实影像大会黎里对话顺利举办

百川智能首款 AI 应用主打懂搜索，但王小川不做搜索 2.0

新歌发布《我们还是错过了》乌兰图雅作词出品关剑作曲演唱

海信世俱杯AI焕新计划启动，AI真空磁场保鲜技术重构美食

中国青年电影人在戛纳受到瞩目

上海AI实验室开源发布高质量语料“万卷CC”

构建影视文化产业新质生产力，中国短剧本大赛在澳涞山庄启动

有史以来最拉风的看片会！《风驰赛车手》导演陆伟揭秘幕后故事

《英雄联盟：云顶之弈》庆祝6周年，云顶之弈时光机携专属玩家奖励回归

马斯克的Space X卫星被破解，25美元的工具就能入侵终端，篡改运行任意代码，攻击手法已公开

央视频带您到宜春熊出没乐园解锁沉浸式童梦狂欢

热门排行

热点知识时尚探索综合娱乐休闲焦点

Copyright © 2018-2023 热点观测站- 美好趣闻，让你美好瞬间 All Rights Reserved. XML地图热点观测站- 美好趣闻，让你美好瞬间