推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺-热点观测站- 美好趣闻，让你美好瞬间

当前位置：首页 >> 风风风 > 推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术
时间：2025-07-11 04:20:01人气：1988编辑：td
2025 年 1 月 20 日 Kimi k1.5 正式发布，推特伴随着工艺报告的热帖公布，有网友表示：“这应该是因为艺全球范围内，除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧！”
一时间，项工Kimi k1.5 成了话题王者。推特
但在一个月后的热帖 2 月 24 日，X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖，博主直言 k1.5 所用到的作团强化学习运算规则，其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。
消息一出，推特瞬间吸引了数万人关注。热帖
Kimi k1.5 背后的 SPPO 工艺
在这则爆料中，博主 Yue Wu 先是项工对 SPPO 进行了简单解释，并且附上了相关论文（https://arxiv.org/abs/2405.00675），简单来说，SPPO是一种自博弈运算规则，最初的动机来源于刻画广泛意义上的人类偏好，并且使用了如下图所示的平方损失函数：
值得一提的是，点开论文链接，你会发现原来 Yue Wu 和 Zhiqing Sun 同为这篇文章的第一作者。
紧接着，他开始对 SPPO 工艺进行解析：
通过迭代求解上式中的 theta_t，我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率（红色部分）作为奖励，并用常数近似基线（蓝色部分）。
让我们感兴趣的是，我们发现它与 RLHF 目标的策略梯度有着深层的联系：如果我们直接用普通的策略梯度优化 RLHF （人类反馈强化学习）目标会怎样？根据策略梯度定理，策略梯度实际上也具有平方损失形式（蓝色项是策略梯度中的基线）：
从数学上，我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体：
SPPO 中的胜率充当奖励函数（红色部分）。
分区函数项自然地成为（软）值函数（蓝色部分）。
那么这到底意味着什么呢？
标准策略梯度（PPO、GRPO、REINFORCE）在每一步都收集遵循当前策略的样本。
SPPO 在每次迭代开始时只采样一次，然后通过平方损失进行优化。
这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成！
上述分析揭示了大型语言模型（LLM）后训练阶段一个有趣的增长趋势：
离线 DPO（IPO、KTO 等）取代 RLHF（奖励模型 + 强化学习）
迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法
更加精细的迭代 → 回归到在线强化学习
鉴于 GRPO（Deepseek-R1）和平方损失（Kimi k1.5）的成功，端到端强化学习的强大作用愈发凸显，或许在大型语言模型（LLM）后训练阶段无需额外技巧——价值函数、广义优势估计（GAE），甚至梯度裁剪都无需使用。
另一个简单但有趣的发现是，他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。
在我们后续的研究 GPO 中，我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度，但它是以迭代的方式进行的。
SPPO 工艺背后的科研大牛
除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外，Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授，博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授，目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。
除此之外，2023 年至今他一共参与发布了 9 篇 Paper，其中 3 篇均为第一作者。
强大的学术背景之外，Wu Yue 的实习经历也非常加分。2022 年至 2024 年，他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间，Wu Yue 从事个性化联邦学习研究，并开发了一种基于混合模型的方法，该方法被 ICML 2023 接受发表；在字节美国 AI lab 时，他专注于药品发现领域的多构象生成，将分子动力学的物理先验纳入基于扩散的生成模型，相关成果被 ICML 2024 接受；来到 Meta 后，Wu Yue 又致力于词汇级别奖励建模和新架构设计，用于一般人类偏好和一般偏好优化，为生成式机器智能的增长做出了贡献。
雷峰网(公众号：雷峰网)还了解到，与他同为第一作者的 Zhiqing Sun ，目前已经从 CMU 毕业，并在今年 2 月加入 OpenAI。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。
第27届上海国际电影节今开幕，与你共享流动光影盛宴世界电影开启“上海时间”
网站首页返回栏目
数字戏剧让每位观众都有“最优座位”
标签：周伯文：下一代大模型 OS，工具和语言缺一不可丨GAIR 2023 李一桐、刘宇宁担任爱奇艺VIP内容推荐官邀会员追剧赢好礼美食纪录片《味道大师》上线，八大基础口味皆是时代镜像
相关资讯
}
“南京红老头”已被警方抓获
}
电视剧《锦绣芳华》展现东方美学魅力
}
谭咏麟引爆上海LIVERSE首演，音宇宙重塑演唱会奢侈品新定义
}
从《毛雪汪》看哇唧唧哇如何用“真实感”打造爆款内容
}
非法收受财物2.29亿余元窦万贵一审被判死缓
}
知情人士确认周杰伦即将入驻抖音
}
DeckSpeed 严訸：创业的本质是对全世界的祛魅｜ 00后创业者系列
}
机器人新势力估值断层加速，具身智能靠什么穿越风暴？
}
「焦虑」的体育教育，「救场」的AI体育
}
破界·共生：网络综艺的融合创新与价值跃升
}
骆言新剧《爱上海军蓝》燃情开播，飒爽戎装首次诠释军人形象
}
阿里 AI 实力获斯坦福权威报告盖章！通义千问贡献排名全球第三、中国第一
热门频道
热点
知识
时尚
博搏云的生态蓝图：稳固住AGI全栈服务商的重要阵地
乌镇暑假新推十余项活动，乌镇消夏节疯玩古今江南
2025-07-12 23:12 博搏云的生态蓝图：稳固住AGI全栈服务商的重要阵地
2025-07-12 23:09 爱奇艺在印尼开站携手Telkomsel深化当地市场布局
2025-07-12 22:56 美食纪录片《味道大师》上线，八大基础口味皆是时代镜像
2025-07-12 22:54 重温！中国动画电影经典之作
2025-07-12 22:53 大模型「点火」，AI for Science 提速
2025-07-12 22:45 乌兰图雅化身体验官，邀您共赴庄浪的美食与人文非遗之旅！
2025-07-12 22:14 对话UCL青年教授赵湖斌：可穿戴式DOT如何重塑脑机接口
2025-07-12 22:06 重温！中国动画电影经典之作
2025-07-12 22:04 男演员身份证照片引热议，证件照怎样拍才规范？
2025-07-12 21:40 多部新片带来共鸣与震撼高温天气反衬影院凉爽宜人暑期档电影市场渐入佳境
2025-07-12 21:29 推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术
2025-07-12 21:24 大麦“好戏连台”川渝方言喜剧专场开启川渝10余城巡演票价低至59元
2025-07-12 21:06 官方：“医保‘个人账户’将全部取消”系旧谣新传
2025-07-12 20:41 上交大冷静文：模型发展需要和芯片、系统厂商协同
DALL·E 3 推理能力炸裂提升，OpenAI 抢跑「ChatGPT 原生」
万人合唱“站在庄浪望北京”乌兰图雅庄浪演唱会上演了一场最美的雨中双向奔赴
2025-07-12 23:20 也门胡塞武装：红海受袭希腊货轮沉没
2025-07-12 23:18 国家统计局：6月CPI同比上涨0.1%，由降转涨，核心CPI继续回升
2025-07-12 23:03 香港乐高探索中心开启夏日玩乐模式「乐高夏日拼乐祭」暑期全新上线
2025-07-12 22:58 反超 DeepSeek？马斯克「钞能力」砸出来的 Grok 3 终于上线了
2025-07-12 22:54 中国第一艘第一次第一座彰显重大突破
2025-07-12 22:36 Anthropic AI 最新研究成果发布：揭示大模型中的注意力回路
2025-07-12 22:19 乌兰图雅化身体验官，邀您共赴庄浪的美食与人文非遗之旅！
2025-07-12 22:04 《新说唱2025》魔王对抗赛：新老对决高潮迭起，多元说唱风格碰撞
2025-07-12 21:56 星尘数据MorningStar正式发布！狙击“数据债”成最大看点
2025-07-12 21:28 24小时两见特朗普以色列总理只为一件事
2025-07-12 21:06 香港首个商业AI展「AI+ Power 2025」盛大开幕，本地及海外行业精英齐聚共探AI发展
2025-07-12 21:03 上交大冷静文：模型发展需要和芯片、系统厂商协同
2025-07-12 20:53 GAIR 2023 正式开幕：AI 如此绽放之时，昭示着熙春已至
2025-07-12 20:46 “歌游内蒙古”听乌兰图雅《摘朵马兰你就走吧》围着篝火唱着想念
问鼎「AI 之巅」，第四届全国人工智能大赛决赛在深举行
阶跃生态开放日：聚焦智能终端 Agent，率先布局端侧全产业
2025-07-12 23:24 对话加拿大工程院于非院士：寻找 AI 领域的「香农定理」
2025-07-12 23:12 阿比亚斯献唱 “花开四季”庄浪演唱会
2025-07-12 23:06 骆言新剧《爱上海军蓝》燃情开播，飒爽戎装首次诠释军人形象
2025-07-12 23:02 阿里 AI 实力获斯坦福权威报告盖章！通义千问贡献排名全球第三、中国第一
2025-07-12 22:54 问鼎「AI 之巅」，第四届全国人工智能大赛决赛在深举行
2025-07-12 22:53 著名表演艺术家王昆诞辰100周年成方圆郭蓉追忆艺术引路人
2025-07-12 22:19 脱衣舞爱豆在卫生间陪公子哥约p
2025-07-12 21:45 大麦“好戏连台”川渝方言喜剧专场开启川渝10余城巡演票价低至59元
2025-07-12 21:42 大模型时代的三道鸿沟：数据、成本与想象力
2025-07-12 21:37 2025看东方·芭莎之夜暨超音尚派对燃擎上海多元舞台引爆时尚音浪
2025-07-12 21:34 对话UCL青年教授赵湖斌：可穿戴式DOT如何重塑脑机接口
2025-07-12 21:13 Bonree ONE 2025春季版全球发布
2025-07-12 21:13 外交部：美对铜加征关税不符合任何一方利益
2025-07-12 20:50 ICLR 2025：顶尖科学家最关心的 AI 趋势有哪些？丨GAIR Live
阿里云 all in AI 的决心
机器人新势力估值断层加速，具身智能靠什么穿越风暴？
2025-07-12 23:12 盼盼×Hello Kitty限定包装登录永辉717好吃节，“萌趣”零食成为社交货币
2025-07-12 22:58 上交大冷静文：模型发展需要和芯片、系统厂商协同
2025-07-12 22:32 电视剧《守诚者》今日开播！陈小春李治廷任达华热血集结，以忠诚勇毅护万家灯火
2025-07-12 22:23 重磅发布！新华医院联合商汤医疗推出AI儿童全科医生，“深思考”大医赋能儿科发展
2025-07-12 22:07 GAIR 2023 正式开幕：AI 如此绽放之时，昭示着熙春已至
2025-07-12 22:07 倒计时1天！乌兰图雅“花开四季”演唱会绽放庄浪万人倾心静待开唱
2025-07-12 21:52 记者：弗拉霍维奇与米兰就待遇问题展开谈判
2025-07-12 21:44 乌兰图雅化身体验官，邀您共赴庄浪的美食与人文非遗之旅！
2025-07-12 21:37 独家｜前百度搜索老将赵世奇从华为离职，回归百度
2025-07-12 21:35 万字实录：VLA 范式，具身智能的曙光与迷雾丨GAIR Live
2025-07-12 21:33 《七月的一天》正式开机沈月陈昊森携手勇闯漫画世界
2025-07-12 21:18 独臂警察VS五人劫匪团！电影《插翅难逃》定档7月5日
2025-07-12 21:01 国务院任免国家工作人员
2025-07-12 20:46 李一桐、刘宇宁担任爱奇艺VIP内容推荐官邀会员追剧赢好礼
博搏云的生态蓝图：稳固住AGI全栈服务商的重要阵地
乌兰图雅化身体验官，邀您共赴庄浪的美食与人文非遗之旅！
2025-07-12 23:11 美国洛杉矶一隧道坍塌 15人被困
2025-07-12 22:59 面壁智能获新一轮数亿元融资，引领端侧大模型高效发展与应用普及
2025-07-12 22:48 《非遗里的中国》带你探寻白山松水间的匠心传承
2025-07-12 22:41 面壁智能获新一轮数亿元融资，引领端侧大模型高效发展与应用普及
2025-07-12 22:40 “众星云集”不是票房灵药
2025-07-12 22:37 爱奇艺在印尼开站携手Telkomsel深化当地市场布局
2025-07-12 22:24 OceanBase一体化架构再升级，业内首发“共享存储”产品
2025-07-12 22:18 Bonree ONE 2025春季版全球发布
2025-07-12 22:03 内蒙古一景区载3人观光飞机坠地，多方回应
2025-07-12 21:17 2025看东方·芭莎之夜暨超音尚派对燃擎上海多元舞台引爆时尚音浪
2025-07-12 21:16 推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术
2025-07-12 21:06 著名表演艺术家王昆诞辰100周年成方圆郭蓉追忆艺术引路人
2025-07-12 20:53 对话零一万物：大模型产品要找到 TC
2025-07-12 20:41 深谋科技独树一帜，发布高精度压电式六维力传感器「弹起」，满足多领域高动态力控需求

精彩推荐

热门标签

4天7场演出，上海群文团队在3000米海拔牧场奏响“沪喀协奏曲”

【动态】中国图象图形学学会颁奖典礼在长沙隆重举行

深谋科技独树一帜，发布高精度压电式六维力传感器「弹起」，满足多领域高动态力控需求

【即将启幕】2025中国时尚大会：海宁奏响产业升级最强音！

今年将举办50多场演唱会鸟巢放歌引爆双奥场馆新热潮

DeckSpeed 严訸：创业的本质是对全世界的祛魅｜ 00后创业者系列

4K镜头聚焦文物传奇，《博物馆之城》第三季圆满收官

4K镜头聚焦文物传奇，《博物馆之城》第三季圆满收官

大模型时代的三道鸿沟：数据、成本与想象力

“为一场演出赴一座城”，演唱会经济持续升温

魔法吉伊卡哇系列中国大陆线下首发，7月5日起登陆上海百联！

美食纪录片《味道大师》上线，八大基础口味皆是时代镜像

成立“美国党” 马斯克的“第三条道路”走得通吗？

第三届北京网络视听艺术大会开幕 80部网络视听精品力作发布

李一桐、刘宇宁担任爱奇艺VIP内容推荐官邀会员追剧赢好礼

Agent 要被吃进大模型了

《少年书院行》：用青春脚步丈量文明厚度

魔法吉伊卡哇系列中国大陆线下首发，7月5日起登陆上海百联！

Pokee.ai 朱哲清：用 RL 搭建智能体的「骨骼与神经」

万人合唱“站在庄浪望北京”乌兰图雅庄浪演唱会上演了一场最美的雨中双向奔赴

创业板指涨逾1%，沪指站稳3500点上方

DeckSpeed 严訸：创业的本质是对全世界的祛魅｜ 00后创业者系列

爱奇艺在印尼开站携手Telkomsel深化当地市场布局

知情人士确认周杰伦即将入驻抖音

北京：优化小客车指标配置，更好支持家庭用车需求

外卖大战彻底疯狂！“一天三顿不超过10元”

《七月的一天》正式开机沈月陈昊森携手勇闯漫画世界

借势抖音明星流量，餐饮品牌打造同款套餐撬动年轻市场

濮存昕龚丽君再续“牌局” 暌违五年《洋麻将》重登人艺“牌桌”

香港首个商业AI展「AI+ Power 2025」盛大开幕，本地及海外行业精英齐聚共探AI发展

热门排行

热点知识时尚探索综合娱乐休闲焦点

Copyright © 2018-2023 热点观测站- 美好趣闻，让你美好瞬间 All Rights Reserved. XML地图热点观测站- 美好趣闻，让你美好瞬间