论文阅读(4)——知识蒸馏/GRPO/DPO
A Survey on Symbolic Knowledge Distillation of Large Language Models 这是一篇综述,主要介绍LLM中的符号知识蒸馏。 【知识蒸馏概述】 知识蒸馏是一种将知识从更大、更复杂的模型(教师)转移到更小、更简单的模型(学生)的技术,目标是保
论文阅读(3)——技术报告
Skywork Open Reasoner 1 Technical Report 本文介绍了 Skywork-OR1,这是一个旨在增强大型语言模型(LLM)推理能力,特别是长链式思考(CoT)模型的强化学习(RL)实现。该工作基于 DeepSeek-R1-Distill 模型系列,通过一系列优化策略
大模型入门(5)——阶段性小结
到目前为止,我对于LLM的理解用自己的语言总结来说,大致如下: 一个语言模型(LM)的任务是根据上文内容预测下文内容,而大语言模型(LLM)则是利用率大量数据进行训练的语言模型,这称为预训练。 预训练后的LLM能够完成文本生成任务,但是对于人类给出的指令,LLM并不能很好地给出回答,此时引入了监督微
论文阅读(2)——微调及相关技术
Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning (从石头中挖掘宝石:LLM推理中负样本增强的策略优化) 这篇文章提出了BCPG-NSA(行为约束策
大模型入门(4)——冷启动数据、推理类与非推理类SFT数据
1.冷启动数据 定义:冷启动数据指在模型训练初期使用的小规模、高质量数据,用于快速引导模型理解任务的基本模式,为后续大规模训练或强化学习提供基础能力。 可以把它想象成在模型几乎没有任何先验知识的时候,给予的“雪中送炭” 特点:数据量少(通常为数千条),覆盖核心场景,标注精准 用途:解决模型在初始阶段
论文阅读(1)——奖励替代/无监督/半监督强化学习
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models Right Question is Already Half the Answer: Fully Unsupervised LLM Reason
大模型入门(3)——学习OpenRLHF框架
在此之前先查看了一下自己电脑的基础配置: 系统: 操作系统:Windows 11 家庭中文版64位 处理器:12th Gen Intel(R) Core(TM) i9-12900HX 2.30 GHz 机带RAM:16.0 GB (15.7 GB 可用) 显卡1: 芯片类型:Intel(R) UHD
大模型入门(2)——初读两篇论文后的感悟
这两天读了 GPG-A Simple and Strong Reinforcement Learning Baseline for Model Reasoning The Unreasonable Effectiveness of Entropy Minimization in LLM Reason
大模型入门(1)——“人人都能看懂的RL-PPO理论知识”
在攻读第一篇文章“GPG-A Simple and Strong Reinforcement Learning Baseline for Model Reasoning”后发现自己在Method的策略梯度(PG)公式没看懂,所以先看看这一篇博客入门PPO和LLM的相关知识。 一、参考教程 Sutto
运筹学
课件及资料 https://pan.baidu.com/s/1DPvex9jALtIx0uWgyzBv0A?pwd=1895 提取码: 1895 个人感悟 这算是经管大类最后一个比较硬的公共课了,做课后作业和复习的时候需要投入一定的精力。不过考试难度不高,掌握基础和答题的模板即可。