增强SLMs的Tool use能力

Posted 2025-09-28 Updated 2025-09- 28

By Administrator

17~22 min read

附录

主要记录自己在阅读论文、技术博客过程中见到的概念、现象。

两者之间最大的区别在于奖励信号的来源和性质：

RLHF (Reinforcement Learning from Human Feedback)：奖励来自于人类主观的偏好。
- 核心思想是通过学习人类的偏好来训练一个“奖励模型”，然后用这个奖励模型作为指导，通过强化学习来优化语言模型。
- 收集人类偏好数据->训练奖励模型->强化学习进行微调
- 本质上是为了解决没有明确、客观正确答案的问题。
RLVR (Reinforcement Learning with Verifiable Rewards)：奖励来自于客观、可自动验证的规则或事实。
- 核心思想是依赖于客观、可通过程序自动验证的奖励，而不是主观的人类偏好。不需要训练一个单独的奖励模型，而是直接定义一个可验证的奖励函数 (Verifiable Reward Function)。这个函数能够自动、客观地判断模型生成的答案是否“正确”。
- 模型针对问题生成一个答案（包含解题步骤）->一个独立的验证器检测答案（单元测试、数学求解器/计算器、事实核查数据库）->根据验证结果给予奖励->强化学习算法优化模型
- 本质上是为了解决那些有明确、客观对错标准的任务。追求的是正确性而不是主观上的好。

在强化学习的语境中，探索空间（Exploration Space）是指一个智能体（Agent）为了完成一个任务，所有可能采取的“行动序列”的集合。

对于一个语言模型来说，探索空间就是它为了回答一个给定的提示（Prompt），可能生成的所有文本输出的集合。

pass@k 是一个评测指标：它用来衡量模型解决问题（特别是编程或数学题）的能力。它的意思是：让模型对同一个问题尝试生成 k 个不同的答案，只要其中有至少一个答案是正确的，就算通过（pass）

小k的pass@k(例如 pass@1)：
- 衡量模型“首选答案”的准确率
- pass@1意味着模型只有一次机会，它必须在第一次尝试时就给出正确答案
- pass@1的提升，意味着模型变得更可靠、更精确了。它对自己最有信心的那条推理路径，打磨得越来越正确

大 k 的 pass@k (例如 pass@100)：
- 这衡量的是模型的“解题思路的多样性”或“知识广度”。
- pass@100 意味着模型有一百次机会，只要在这一百个五花八门的答案里能凑出一个正确的就行。
- 这个指标的高低，取决于模型是否知道足够多的、可能通往正确答案的路径。

这句话说明，RLVR的作用机制是：在模型已有的多种解题思路中，找到那个最可能正确的，并通过奖励不断强化它，让它成为模型的首选。它的核心作用，是在模型现有的知识范围内，通过奖励信号打磨出一条最优的推理路径，并砍掉那些没用的、错误的探索方向，从而让模型的思考过程更聚焦、更可靠。

如何理解“熵”在语言模型中的含义，以及它如何与“探索空间”和训练阶段联系起来。

比如模型在求解数学题：

熵变化率就是捕捉这种“高-低-高-低”的波动模式。一个健康的、高效的推理过程，其熵应该是剧烈变化的，而不是一马平川。熵变化率直观地反映了模型在推理过程中“思考”的深度和广度。

高熵变化率：模型在生成过程中，经历了从“迷茫探索”到“笃定执行”的多次切换。它在关键节点（高熵处）思考了多种可能性，然后在确定路径后（低熵处）又能果断执行。
- 表明模型面对的是一个广阔且有价值的探索空间。
低熵变化率：模型在生成过程中，其不确定性水平一直很稳定
- 一直很低：说明模型在“背答案”，它对每一步都过于自信，完全没有思考其他可能性。这往往是过度拟合SFT数据（蒸馏）的症状，导致了“冗余和复杂性”（模型只是在机械地复现教师模型的每一个字）。
- 一直很高：说明模型全程“一脸懵”，从头到尾都不知道自己在说什么，毫无头绪。
- 表明模型的探索空间要么及其狭窄（只会背书），要么毫无价值（胡言乱语）。

LLM

License: CC BY 4.0