avatar

Wang's Blog

Be Open, Share Knowledge, Keep Learning

  • 首页
  • 数理基础
  • 宇宙机
  • LLM
  • 管理与经济
  • 游戏
Home 大模型入门(4)——冷启动数据、推理类与非推理类SFT数据
文章

大模型入门(4)——冷启动数据、推理类与非推理类SFT数据

Posted 2025-07-21 Updated 2025-07- 21
By Administrator
16~21 min read

1.冷启动数据

  • 定义:冷启动数据指在模型训练初期使用的小规模、高质量数据,用于快速引导模型理解任务的基本模式,为后续大规模训练或强化学习提供基础能力。 可以把它想象成在模型几乎没有任何先验知识的时候,给予的“雪中送炭”

  • 特点:数据量少(通常为数千条),覆盖核心场景,标注精准

  • 用途:解决模型在初始阶段因数据不足导致的性能低下问题

  • 论文:《Language Models are Few-Shot Learners》

  • 示例:

输入:法国的首都是哪里?
输出:巴黎
输入:日本的首都是哪里?
输出:东京

2.推理类SFT数据(Reasoning-Oriented SFT Data)

  • 定义:需要模型进行逻辑推理、分步解答的任务数据,常见于数学问题、代码生成、科学问答等场景

  • 特点:包含中间推理步骤(如 <think> 标签),答案需严格依赖逻辑推导

  • 格式:通常结合结构化标签(如 <think> 和 <answer> )明确区分推理与结论。 在 SFT 阶段,模型会学习预测这些标签,从而提高推理能力

  • 论文:《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》

推理类数据需展示完整的思考链(Chain-of-Thought, CoT)

  • 示例(数学问题):

问题:小明有12个苹果,吃了3个,又买了5个,现在有多少个?
推理:
<think>
1. 初始苹果数:12
2. 吃掉后剩余:12 - 3 = 9
3. 购买后总数:9 + 5 = 14
</think>
<answer>14</answer>

3.非推理类SFT数据(Non-Reasoning SFT Data)

  • 定义:侧重于生成性任务,无需复杂逻辑推理,如开放域对话、创意写作、信息检索等

  • 特点:强调语言流畅性、一致性,无需显式推理步骤。数据类型多样,可以是对话、诗歌、小说、代码注释等等

  • 格式:直接提供输入-输出对,或通过多轮对话模拟真实交互

  • 论文:《DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation》

非推理类数据用于训练对话生成模型。

  • 示例:

{
  "conversation": [
    {"role": "user", "content": "推荐一部科幻电影"},
    {"role": "assistant", "content": "《星际穿越》探讨了时空与亲情,豆瓣评分9.3,值得一看。"}
  ]
}

总结

数据类型

核心目标

典型任务

论文支持

冷启动数据

快速建立基础任务能力

少量示例学习(Few-Shot)

GPT-3、T5

推理类SFT数据

提升逻辑推理与分步解答能力

数学解题、代码生成

Chain-of-Thought、Codex

非推理类SFT数据

增强生成流畅性与场景适应性

开放域对话、创意写作

DialoGPT、GPT-2/3

LLM
License:  CC BY 4.0
Share

Further Reading

Sep 28, 2025

代码阅读与运行1

RLHF 试着运行了一份非常基础的RLHF代码,来源于:https://github.com/lansinuote/Simple_RLHF_tiny B站上有对应视频 📁项目结构 Simple_RLHF_tiny-main/ ├── 🔧 核心代码文件 │ ├── util.py # 工具类:To

Sep 28, 2025

大模型入门(6)——Agent、MCP、FunctionCall

内容来自B站视频:【10分钟讲清楚 Prompt, Agent, MCP 是什么】https://www.bilibili.com/video/BV1aeLqzUE6L?vd_source=a704063646d181fb265230f6b49cca81 System Prompt和User Pro

Sep 28, 2025

代码阅读与运行2

这次运行的是大名鼎鼎的OpenRLHF 遇到的一些问题 自己的设备是colab提供的A100 GPU,显存40GB 安装的过程没有太大问题,都能顺利解决,安装之后按照README的顺序试着用以下命令启动SFT的训练(提供的脚本还没试过) !deepspeed --module openrlhf.cl

OLDER

论文阅读(1)——奖励替代/无监督/半监督强化学习

NEWER

论文阅读(2)——微调及相关技术

Recently Updated

  • C++
  • Hello World
  • 数据仓库复习整理
  • 代码阅读与运行1
  • 大模型入门(6)——Agent、MCP、FunctionCall

Trending Tags

Halo 前端 强化学习 Python obsidian

Contents

©2026 Wang's Blog. Some rights reserved.

Using the Halo theme Chirpy