开云体育

开云APP下载【论文】DeepSeek最新魔改:奖励模型SPCT

2025-04-10
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

开云APP下载【论文】DeepSeek最新魔改:奖励模型SPCT

  没看错,就是大家看不上、嫌low的规则,DeepSeek把它发挥到极致。

  必须跟人类一样,知道什么是对的,什么是好的,即“对齐”(Alignment),简而言之,3H(Helpful 有用, Honest 一致, Harmless 无害)

  Instruct GPT-3.5中的RLHF(基于人类反馈的强化学习)就是典型,其中奖励模型 (Reward Model, RM) 最重要,扮演裁判,专门给 LLM 生成内容打分,告诉 RL 哪个好、哪个不好,这样 LLM 才能学好。

  原理:给定 问题 (Query) 和多个回答 (Response),直接吐出分数(标量)。简单粗暴。

  死脑筋:给同样的输入,基本就出同样的分数,多算几次提高准确度?难!缺乏“推理时可扩展性”。

  缺点:点评看起来更透明,但仍然难以实现推理时性能扩展,因为分数变化不大。

  原理:主要靠写“点评” (Critique) 来工作,分数从点评文字里提取出来。

  Pointwise GRM:论文和 SPCT 用的基础款。给每个回答独立写点评、打分(而不是非要两两比较),所以处理单个、一对、多个回答都很灵活。

  潜力股:写东西(生成文本)这事儿,天生就有点随机性。多写几次点评,结果可能不一样。这就为通过采样投票来提升性能(推理时扩展)埋下了伏笔。

  (question, r1,...,rn) - (s1,...,sn)

  (question, r1,...,rn) - (s1+c1,...,sn+cn)

  (question, r1,...,rn) - (s1+c1,...,sn+cn)

  SPCT 核心是把 RM 工作流程从“直接给分”变成了“定原则 - 写点评 - 提分数”的间接评估。

  ”靠谱:直接打分的标量 RM 像个黑箱,逻辑不清晰。SPCT 要求模型先明确“原则”(这次重点看啥),再基于原则写“点评”(分析过程),相当于强制把思路理清楚。这样做不仅打分更准、更稳(好原则能提高准确率),而且也能看懂为啥这么评,可解释性大大增强。

  ” :标量模型输出固定。但 GRM 生成原则和点评时,引入一些随机性(比如调整 temperature 参数)。对同一个问题多问几次,可能会从不同角度(原则侧重不同)给出不同的分析和分数。这种输出的“多样性”,正是后面用投票等方法提升性能的基础。没多样性,投一百次票结果也一样。

  ”才能“通吃” :评估任务千变万化,标准也各不相同。SPCT 让模型自己根据当前的问题和回答,动态生成最合适的“原则”。能自适应地调整评估重点,这对于打造能胜任多种任务的通用 RM 裁判至关重要。

  试着评:拿 RM 数据集里的问题和回答 (Q,Ri),让 GRM 多试几次(N_RFT 次),每次都生成原则、点评和分数 Si

  挑三拣四(拒绝策略) :比较 GRM 给的分数 Si 和数据集里的标准答案(偏好 ri)

  如果评错了(比如把差的说成好的),这次尝试就不要(标记 Incorrect)。

  如果对某个问题,试了 N_RFT 次全都评对了,说明太简单了,也不要(标记 Too Easy)。

  用好的练:把那些评对了、但又有点难度的尝试(被接受的样本)收集起来,组成 RFT 数据集,用标准的监督学习方法微调 GRM。

  再评一次 (Rollout) :模型拿到 (Q,Ri),走一遍流程:生成原则 - 生成点评 - 提取分数 Si

  给奖惩 (奖励信号计算) :比较模型预测的分数/排序 Si 和标准答案 ri,根据一个简单规则(论文公式 5)给个奖励 r。

  更新模型:用在线强化学习算法(比如 GRPO),根据这个 +1 或 -1 的奖励信号来更新 GRM 的参数,鼓励它多生成能拿 +1 分的原则和点评。

  强制模型先想原则再点评,减少了瞎猜和偏见,评估结果自然更准确、更可靠。

  SPCT 的核心亮点:训练好的 GRM,使用时多花点计算资源来提升性能:

  同时,Pointwise GRM 形式处理单回答、双回答、多回答排序等各种情况都得心应手。

  模型能根据输入自适应地调整评估原则,不同领域、不同类型的任务上表现更好,通用性更强。

  DeepSeek-GRM-27B拔得头筹,其中GPT-4o(greedy)优于Voting版

  DeepSeek-GRM-27B(MetaRM)总分最高 72.8,其次是

  多问几次 (采样机制) :对同一个问题和回答 (Q,Ri),让模型独立地、带点随机性地(比如 temperature 0)思考 k 次。因为想法(生成过程)有多样性,每次可能会得到不同的原则、点评和分数。

  (Voting) :最直接的方法,把 k 次采样得到的每个回答的分数加起来或取平均,得到最终总分。谁总分高就选谁。比如图 3 里的例子,4 次采样 R1/R2 得分分别是 [1, 5], [5, 6], [4, 8], [7, 6],投票结果 R1=17, R2=25,最终选 R2。

  (Meta RM 引导 - 可选) :更高级的玩法,可以再训练一个“裁判的裁判” (Meta RM),专门评估每次采样生成的 (原则, 点评) 的质量。投票时,只选那些 Meta RM 评分最高的 k_meta 次采样的结果来汇总,把质量差的意见过滤掉。如图 3,Meta RM 可能筛掉一些低分采样再投票。

  随着采样次数 k 增加,不管是简单投票还是精英投票,DeepSeek-GRM 性能都蹭蹭往上涨,证明确实能“越算越准”。

搜索