avatar

Wang's Blog

Be Open, Share Knowledge, Keep Learning

  • 首页
  • 数理基础
  • 宇宙机
  • LLM
  • 管理与经济
  • 游戏
Home 阶段性总结(2)——论文分类
文章

阶段性总结(2)——论文分类

Posted 2025-07-21 Updated 2025-07- 21
By Administrator
33~43 min read

LLM领域论文主题分类汇总

📋 概述

本文档对当前LLM(大型语言模型)领域的重要研究进行主题分类,涵盖强化学习优化、知识蒸馏、推理能力提升、统一训练框架、专项应用及安全对齐等六大核心方向。

🔧 一、强化学习优化与策略改进

核心问题

强化学习在LLM训练中的应用优化,包括策略梯度方法改进、负样本利用、离线策略指导等。

重点论文

1. Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning

  • 核心创新: 提出BCPG-NSA(行为约束策略梯度与负样本增强)框架

  • 技术要点: 从短CoT推理的负样本中蒸馏有价值信号,实现长CoT推理

  • 应用价值: 有效利用失败样本,提升推理链生成质量

2. Learning to Reason under Off-Policy Guidance

  • 核心创新: LUFFY框架 - 离线策略指导下的推理学习

  • 技术要点: 在可验证奖励的强化学习(RLVR)背景下增强大型推理模型能力

  • 应用价值: 解决离线数据与在线学习的差异问题

3. Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs

  • 核心问题: 低概率词元在RL训练中梯度幅度过大,阻碍高概率词元学习

  • 解决方案: 平衡不同概率词元的梯度贡献

  • 实际意义: 避免模型过度关注罕见词元而忽略关键信息

4. A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

  • 研究焦点: 深入分析GRPO(群组相对策略优化)有效性的根本原因

  • 方法论: 从拒绝采样到强化学习的渐进式方法

  • 理论贡献: 为强化学习在LLM中的应用提供理论基础

📊 技术趋势分析

  • 负样本利用: 从失败中学习成为重要趋势

  • 离线策略: 解决数据分布不匹配问题

  • 梯度平衡: 关注训练过程中的细节优化

  • 理论指导: 注重方法的理论可解释性

📚 二、知识蒸馏与模型压缩

核心问题

通过教师-学生框架传递知识,提升小模型性能,优化蒸馏策略和教师模型选择。

重点论文

1. Not All Correct Answers Are Equal: Why Your Distillation Source Matters

  • 核心观点: 强调教师模型选择对蒸馏效果的关键影响

  • 研究发现: 不是所有正确答案都具有相同的教学价值

  • 实践指导: 为知识蒸馏提供教师模型选择准则

2. ADVANTAGE-GUIDED DISTILLATION FOR PREFERENCE ALIGNMENT IN SMALL LANGUAGE MODELS

  • 创新方法: 利用优势函数指导的蒸馏框架

  • 应用场景: 针对小型语言模型的偏好对齐

  • 技术特点: 教师-学生框架结合人类偏好指导

3. KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning

  • 统一框架: 将知识蒸馏与强化学习相结合

  • 训练阶段: 专注于后训练阶段的推理能力提升

  • 集成优势: 同时利用蒸馏的稳定性和RL的探索性

4.A Survey on Symbolic Knowledge Distillation of Large Language Models

  • 核心内容:综述LLM符号化知识蒸馏领域,系统梳理了将大模型隐式知识转化为符号化、可解释形式的最新进展,强调了提升模型可解释性、效率和应用性的意义

5.Exploring the Limits of Model Compression in LLMs: A Knowledge Distillation Study on QA Tasks

  • 核心内容:探索知识蒸馏在问答任务中的极限,实验证明学生模型在参数量减少高达57.1%的情况下,仍能保留教师模型90%以上的性能,适用于资源受限场景下的高效QA系统

6.Distilling Empathy from Large Language Models

  • 核心内容:研究如何将LLM的“共情”能力蒸馏到小型语言模型(SLM),提出两阶段微调和针对性提示词设计,显著提升SLM的共情响应能力,适用于人机交互等场景。

7.Generalized Knowledge Distillation for Auto-regressive Language Models

  • 核心内容:提出广义知识蒸馏(GKD)框架,通过学生模型自生成序列并获得教师反馈,解决了传统蒸馏方法中训练与推理分布不匹配问题,可与RL微调无缝结合

📈 发展方向

  • 教师模型优化: 从单一模型到多教师集成

  • 蒸馏策略精细化: 基于优势函数的选择性蒸馏

  • 跨模态蒸馏: 扩展到视觉-语言等多模态场景

🧠 三、推理能力研究与优化

核心问题

探索LLM推理机制,优化推理过程,平衡推理深度与效率。

重点论文

1. Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs

  • 研究焦点: 推理长度与正确性关系的实证研究

  • 关键发现: 识别过度思考和思考不足的边界条件

  • 实际应用: 为推理链长度控制提供指导

2. Reasoning Models Can Be Effective Without Thinking

  • 颠覆性发现: NoThinking方法 - 绕过显式思考过程仍能有效推理

  • 理论意义: 挑战传统的"思考链必要性"假设

  • 效率提升: 大幅减少推理时间和计算成本

3. Enhancing Large Language Models through Structured Reasoning

  • 核心论点: LLM局限性源于缺乏结构化知识表示机制

  • 解决方案: 引入显式的逻辑关系操作能力

  • 技术路径: 从统计关联向结构化推理转变

💡 研究启示

  • 推理优化: 寻找思考深度与效率的最佳平衡点

  • 结构化方法: 显式逻辑结构比隐式统计更可靠

  • 效率革新: 简化推理过程可能带来意外收益

🔄 四、统一训练框架

核心问题

整合不同训练阶段和方法,解决顺序训练带来的性能下降问题。

重点论文

1.UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function

  • 核心创新: 统一微调(UFT)方法

  • 解决问题: SFT和对齐方法顺序应用时的性能下降

  • 技术特点:

      - 单一训练阶段整合SFT和对齐

      - 统一目标函数和损失函数

      - 通过隐式奖励函数实现统一

  • 实际价值: 简化训练流程,提升最终性能

2.KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning(统一了知识蒸馏和强化学习)

🎯 发展意义

  • 训练效率: 减少多阶段训练的复杂性

  • 性能提升: 避免阶段间的性能退化

  • 方法论突破: 为统一训练范式奠定基础

🎨 五、专项应用与场景优化

核心问题

针对特定应用场景的定制化优化,包括多轮对话、视觉代码生成等。

重点论文

1. The Key to Fine Tuning Large Language Models for Multi-Turn Medical Conversations is Branching

  • 应用场景: 医学多轮对话访谈

  • 核心问题: 现有方法难以捕捉早期对话对后续结果的影响

  • 解决方案: Savage对话森林(SCF)框架

  • 技术特点: 分支结构建模对话状态转换

2. Teaching Models to Reason about Vision-Based Code Generation using GRPO

  • 跨模态应用: 视觉输入的代码生成任务

  • 方法选择: 使用GRPO进行推理能力训练

  • 技术挑战: 视觉理解与代码逻辑的有效结合

🔧 应用趋势

  • 领域专业化: 针对特定领域的深度优化

  • 多模态融合: 视觉、语言、逻辑的综合运用

  • 交互优化: 多轮对话的状态管理和上下文保持

🛡️ 六、安全性与对齐

核心问题

确保模型行为与人类价值观对齐,防范安全漏洞和恶意利用。

重点论文

MCP Safety Training: Learning to Refuse Falsely Benign MCP Exploits using Improved Preference Alignment

  • 安全焦点: 模型上下文协议(MCP)的安全漏洞

  • 威胁类型: "虚假良性攻击"(FBAs)

  • 防护策略: 改进偏好对齐增强拒绝能力

  • 实际意义: 提升模型对伪装攻击的识别和抵御能力

🔒 安全发展方向

  • 攻击检测: 识别更加隐蔽的攻击方式

  • 拒绝机制: 增强模型的主动防护能力

  • 对齐优化: 持续改进人类偏好对齐方法

📊 总体趋势分析

🚀 技术发展趋势

  1. 方法整合化: 从单一技术向多技术融合发展

  2. 训练统一化: 简化复杂的多阶段训练流程

  3. 应用专业化: 针对特定领域的深度定制

  4. 安全优先化: 安全性考虑贯穿整个开发过程

⚡ 效率优化重点

  1. 计算效率: NoThinking等方法减少不必要的计算

  2. 训练效率: 统一框架减少训练复杂度

  3. 推理效率: 结构化方法提升推理质量

  4. 数据效率: 负样本利用等提升数据价值

🎯 未来研究方向

  1. 理论深化: 加强对方法有效性的理论理解

  2. 跨模态融合: 扩展到更多模态的综合应用

  3. 个性化适配: 针对不同用户和场景的定制化

  4. 可解释性: 提升模型决策过程的透明度

💡 结论与建议

核心观点

  1. 技术融合是趋势: 单一技术的边际效应递减,多技术融合成为主流

  2. 效率与性能并重: 在追求性能的同时,必须考虑计算和训练效率

  3. 应用导向明确: 针对具体应用场景的优化比通用优化更有价值

  4. 安全不可忽视: 随着能力提升,安全性问题变得更加重要

实践建议

  1. 关注方法组合: 探索不同技术的有效组合方式

  2. 重视负样本: 充分利用失败案例中的有价值信息

  3. 平衡复杂度: 在模型复杂度和实际效果间找到最佳平衡

  4. 建立安全机制: 在开发过程中同步考虑安全防护措施

本汇总文档基于当前LLM领域的前沿研究,旨在为相关研究和应用提供系统性的参考框架。

LLM
License:  CC BY 4.0
Share

Further Reading

Sep 28, 2025

代码阅读与运行1

RLHF 试着运行了一份非常基础的RLHF代码,来源于:https://github.com/lansinuote/Simple_RLHF_tiny B站上有对应视频 📁项目结构 Simple_RLHF_tiny-main/ ├── 🔧 核心代码文件 │ ├── util.py # 工具类:To

Sep 28, 2025

大模型入门(6)——Agent、MCP、FunctionCall

内容来自B站视频:【10分钟讲清楚 Prompt, Agent, MCP 是什么】https://www.bilibili.com/video/BV1aeLqzUE6L?vd_source=a704063646d181fb265230f6b49cca81 System Prompt和User Pro

Sep 28, 2025

代码阅读与运行2

这次运行的是大名鼎鼎的OpenRLHF 遇到的一些问题 自己的设备是colab提供的A100 GPU,显存40GB 安装的过程没有太大问题,都能顺利解决,安装之后按照README的顺序试着用以下命令启动SFT的训练(提供的脚本还没试过) !deepspeed --module openrlhf.cl

OLDER

论文阅读(4)——知识蒸馏/GRPO/DPO

NEWER

论文阅读(5)——LLM-EPSP

Recently Updated

  • C++
  • Hello World
  • 数据仓库复习整理
  • 代码阅读与运行1
  • 大模型入门(6)——Agent、MCP、FunctionCall

Trending Tags

Halo 前端 强化学习 Python obsidian

Contents

©2026 Wang's Blog. Some rights reserved.

Using the Halo theme Chirpy