论文阅读（4）——知识蒸馏/GRPO/DPO

A Survey on Symbolic Knowledge Distillation of Large Language Models 这是一篇综述，主要介绍LLM中的符号知识蒸馏。【知识蒸馏概述】知识蒸馏是一种将知识从更大、更复杂的模型（教师）转移到更小、更简单的模型（学生）的技术，目标是保

2025-07-21 LLM

论文阅读（3）——技术报告

Skywork Open Reasoner 1 Technical Report 本文介绍了 Skywork-OR1，这是一个旨在增强大型语言模型（LLM）推理能力，特别是长链式思考（CoT）模型的强化学习（RL）实现。该工作基于 DeepSeek-R1-Distill 模型系列，通过一系列优化策略

2025-07-21 LLM

大模型入门（5）——阶段性小结

到目前为止，我对于LLM的理解用自己的语言总结来说，大致如下：一个语言模型（LM）的任务是根据上文内容预测下文内容，而大语言模型（LLM）则是利用率大量数据进行训练的语言模型，这称为预训练。预训练后的LLM能够完成文本生成任务，但是对于人类给出的指令，LLM并不能很好地给出回答，此时引入了监督微

2025-07-21 LLM

论文阅读（2）——微调及相关技术

Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning （从石头中挖掘宝石：LLM推理中负样本增强的策略优化）这篇文章提出了BCPG-NSA（行为约束策

2025-07-21 LLM

大模型入门（4）——冷启动数据、推理类与非推理类SFT数据

1.冷启动数据定义：冷启动数据指在模型训练初期使用的小规模、高质量数据，用于快速引导模型理解任务的基本模式，为后续大规模训练或强化学习提供基础能力。可以把它想象成在模型几乎没有任何先验知识的时候，给予的“雪中送炭” 特点：数据量少（通常为数千条），覆盖核心场景，标注精准用途：解决模型在初始阶段

2025-07-21 LLM

论文阅读（1）——奖励替代/无监督/半监督强化学习

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models Right Question is Already Half the Answer: Fully Unsupervised LLM Reason

2025-07-21 LLM

大模型入门（3）——学习OpenRLHF框架

在此之前先查看了一下自己电脑的基础配置：系统：操作系统：Windows 11 家庭中文版64位处理器：12th Gen Intel(R) Core(TM) i9-12900HX 2.30 GHz 机带RAM：16.0 GB (15.7 GB 可用) 显卡1：芯片类型：Intel(R) UHD

2025-07-21 LLM

大模型入门（2）——初读两篇论文后的感悟

这两天读了 GPG-A Simple and Strong Reinforcement Learning Baseline for Model Reasoning The Unreasonable Effectiveness of Entropy Minimization in LLM Reason

2025-07-21 LLM

大模型入门（1）——“人人都能看懂的RL-PPO理论知识”

在攻读第一篇文章“GPG-A Simple and Strong Reinforcement Learning Baseline for Model Reasoning”后发现自己在Method的策略梯度（PG）公式没看懂，所以先看看这一篇博客入门PPO和LLM的相关知识。一、参考教程 Sutto

2025-07-21 LLM

运筹学

课件及资料 https://pan.baidu.com/s/1DPvex9jALtIx0uWgyzBv0A?pwd=1895 提取码: 1895 个人感悟这算是经管大类最后一个比较硬的公共课了，做课后作业和复习的时候需要投入一定的精力。不过考试难度不高，掌握基础和答题的模板即可。

2025-06-30 管理与经济