大模型入门(4)——冷启动数据、推理类与非推理类SFT数据
1.冷启动数据
定义:冷启动数据指在模型训练初期使用的小规模、高质量数据,用于快速引导模型理解任务的基本模式,为后续大规模训练或强化学习提供基础能力。 可以把它想象成在模型几乎没有任何先验知识的时候,给予的“雪中送炭”
特点:数据量少(通常为数千条),覆盖核心场景,标注精准
用途:解决模型在初始阶段因数据不足导致的性能低下问题
论文:《Language Models are Few-Shot Learners》
示例:
输入:法国的首都是哪里?
输出:巴黎
输入:日本的首都是哪里?
输出:东京2.推理类SFT数据(Reasoning-Oriented SFT Data)
定义:需要模型进行逻辑推理、分步解答的任务数据,常见于数学问题、代码生成、科学问答等场景
特点:包含中间推理步骤(如
<think>标签),答案需严格依赖逻辑推导格式:通常结合结构化标签(如
<think>和<answer>)明确区分推理与结论。 在 SFT 阶段,模型会学习预测这些标签,从而提高推理能力论文:《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》
推理类数据需展示完整的思考链(Chain-of-Thought, CoT)
示例(数学问题):
问题:小明有12个苹果,吃了3个,又买了5个,现在有多少个?
推理:
<think>
1. 初始苹果数:12
2. 吃掉后剩余:12 - 3 = 9
3. 购买后总数:9 + 5 = 14
</think>
<answer>14</answer>3.非推理类SFT数据(Non-Reasoning SFT Data)
定义:侧重于生成性任务,无需复杂逻辑推理,如开放域对话、创意写作、信息检索等
特点:强调语言流畅性、一致性,无需显式推理步骤。数据类型多样,可以是对话、诗歌、小说、代码注释等等
格式:直接提供输入-输出对,或通过多轮对话模拟真实交互
论文:《DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation》
非推理类数据用于训练对话生成模型。
示例:
{
"conversation": [
{"role": "user", "content": "推荐一部科幻电影"},
{"role": "assistant", "content": "《星际穿越》探讨了时空与亲情,豆瓣评分9.3,值得一看。"}
]
}总结
License:
CC BY 4.0