avatar

Wang's Blog

Be Open, Share Knowledge, Keep Learning

  • 首页
  • 数理基础
  • 宇宙机
  • LLM
  • 管理与经济
  • 游戏
Home 大模型入门(5)——阶段性小结
文章

大模型入门(5)——阶段性小结

Posted 2025-07-21 Updated 2025-07- 21
By Administrator
7~9 min read

到目前为止,我对于LLM的理解用自己的语言总结来说,大致如下:

一个语言模型(LM)的任务是根据上文内容预测下文内容,而大语言模型(LLM)则是利用率大量数据进行训练的语言模型,这称为预训练。

预训练后的LLM能够完成文本生成任务,但是对于人类给出的指令,LLM并不能很好地给出回答,此时引入了监督微调(SFT)方法。SFT通过人类创建的一些固定的、准确的(Prompt,Answer)对,并交给LLM进行学习。

但是在SFT之后,LLM也面临着伦理问题:无意中教唆人类从事不道德的活动。因此,为了对齐人类的偏好,提出了(带PPO的人类反馈强化学习)RLHF、(直接偏好优化)DPO、KTO和(统一对齐)UNA、RAG等方法。

其中RLHF方法先通过训练奖励模型,再使用RL的算法(PPO、GRPO、GPG等)进行强化学习,以提升LLM的推理能力

【SFT与对齐】

LLM的训练分为两部分,预训练阶段和后训练阶段:

  • 在预训练阶段,LLM通过处理海量的文本数据来学习语言的基本结构、语法、语义、事实知识以及世界模型

  • LLM在预训练之后,需要进行后训练以提升模型特定能力(如推理能力)和对齐人类偏好

在后训练阶段,常用的增强模型推理能力的技术包括:强化学习(RL)和知识蒸馏(KD)。知识蒸馏旨在训练学生策略 πθ​ 模仿更强大的教师 πT​ 的行为,一种简单而有效的方法是最大化教师生成数据上的对数似然,也称为监督微调 (SFT)

目前,使用监督微调(SFT)或拒绝采样微调(RFT)从更强大的教师模型中蒸馏知识已广泛应用于LLM后训练。

  • KD 在从教师监督中学习方面是有效和高效的,但它受限于教师的能力,并且在域外泛化方面往往表现不佳

  • 相比之下,RL 可以通过自我探索和奖励指导来放大模型本身的有用推理模式,通常会带来更好的泛化。然而,它受到基础模型固有能力的限制,并且需要大量额外的计算来搜索和优化

因此现有策略通常首先应用 KD 来提高模型能力,然后通过 RL 在两个甚至更多独立阶段进一步完善模型。

【基于RL的增强推理能力的方法】:

  • 直接将 RL 应用于预训练模型,如 R1-Zero 类训练

  • 增强蒸馏模型以解锁较小 LLM 的推理边界

  • 开发与特定骨干无关的模型无关的策略改进(比如结合GRPO和KD)

【知识蒸馏】:

LLM 的知识蒸馏 (KD) 可以根据学生是从教师引导的输出(离线策略)还是从自己的样本(在线策略)中学习而大致分为两种范式:

  • 标准 KD 通常依赖于教师采样的分布,并且可以应用于序列级别或令牌-logit 级别

  • 在线策略 KD 基于学生生成的样本和相应的教师 logits 进行优化,这有助于减轻暴露偏差并支持强化风格的训练

LLM
License:  CC BY 4.0
Share

Further Reading

Sep 28, 2025

代码阅读与运行1

RLHF 试着运行了一份非常基础的RLHF代码,来源于:https://github.com/lansinuote/Simple_RLHF_tiny B站上有对应视频 📁项目结构 Simple_RLHF_tiny-main/ ├── 🔧 核心代码文件 │ ├── util.py # 工具类:To

Sep 28, 2025

大模型入门(6)——Agent、MCP、FunctionCall

内容来自B站视频:【10分钟讲清楚 Prompt, Agent, MCP 是什么】https://www.bilibili.com/video/BV1aeLqzUE6L?vd_source=a704063646d181fb265230f6b49cca81 System Prompt和User Pro

Sep 28, 2025

代码阅读与运行2

这次运行的是大名鼎鼎的OpenRLHF 遇到的一些问题 自己的设备是colab提供的A100 GPU,显存40GB 安装的过程没有太大问题,都能顺利解决,安装之后按照README的顺序试着用以下命令启动SFT的训练(提供的脚本还没试过) !deepspeed --module openrlhf.cl

OLDER

论文阅读(2)——微调及相关技术

NEWER

论文阅读(3)——技术报告

Recently Updated

  • C++
  • Hello World
  • 数据仓库复习整理
  • 代码阅读与运行1
  • 大模型入门(6)——Agent、MCP、FunctionCall

Trending Tags

Halo 前端 强化学习 Python obsidian

Contents

©2026 Wang's Blog. Some rights reserved.

Using the Halo theme Chirpy