avatar

Wang's Blog

Be Open, Share Knowledge, Keep Learning

  • 首页
  • 数理基础
  • 宇宙机
  • LLM
  • 管理与经济
  • 游戏
Home
Wang's Blog
论文阅读(4)——知识蒸馏/GRPO/DPO

论文阅读(4)——知识蒸馏/GRPO/DPO

A Survey on Symbolic Knowledge Distillation of Large Language Models 这是一篇综述,主要介绍LLM中的符号知识蒸馏。 【知识蒸馏概述】 知识蒸馏是一种将知识从更大、更复杂的模型(教师)转移到更小、更简单的模型(学生)的技术,目标是保

2025-07-21 LLM
论文阅读(3)——技术报告

论文阅读(3)——技术报告

Skywork Open Reasoner 1 Technical Report 本文介绍了 Skywork-OR1,这是一个旨在增强大型语言模型(LLM)推理能力,特别是长链式思考(CoT)模型的强化学习(RL)实现。该工作基于 DeepSeek-R1-Distill 模型系列,通过一系列优化策略

2025-07-21 LLM
大模型入门(5)——阶段性小结

大模型入门(5)——阶段性小结

到目前为止,我对于LLM的理解用自己的语言总结来说,大致如下: 一个语言模型(LM)的任务是根据上文内容预测下文内容,而大语言模型(LLM)则是利用率大量数据进行训练的语言模型,这称为预训练。 预训练后的LLM能够完成文本生成任务,但是对于人类给出的指令,LLM并不能很好地给出回答,此时引入了监督微

2025-07-21 LLM
论文阅读(2)——微调及相关技术

论文阅读(2)——微调及相关技术

Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning (从石头中挖掘宝石:LLM推理中负样本增强的策略优化) 这篇文章提出了BCPG-NSA(行为约束策

2025-07-21 LLM
大模型入门(4)——冷启动数据、推理类与非推理类SFT数据

大模型入门(4)——冷启动数据、推理类与非推理类SFT数据

1.冷启动数据 定义:冷启动数据指在模型训练初期使用的小规模、高质量数据,用于快速引导模型理解任务的基本模式,为后续大规模训练或强化学习提供基础能力。 可以把它想象成在模型几乎没有任何先验知识的时候,给予的“雪中送炭” 特点:数据量少(通常为数千条),覆盖核心场景,标注精准 用途:解决模型在初始阶段

2025-07-21 LLM
论文阅读(1)——奖励替代/无监督/半监督强化学习

论文阅读(1)——奖励替代/无监督/半监督强化学习

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models Right Question is Already Half the Answer: Fully Unsupervised LLM Reason

2025-07-21 LLM
大模型入门(3)——学习OpenRLHF框架

大模型入门(3)——学习OpenRLHF框架

在此之前先查看了一下自己电脑的基础配置: 系统: 操作系统:Windows 11 家庭中文版64位 处理器:12th Gen Intel(R) Core(TM) i9-12900HX 2.30 GHz 机带RAM:16.0 GB (15.7 GB 可用) 显卡1: 芯片类型:Intel(R) UHD

2025-07-21 LLM
大模型入门(2)——初读两篇论文后的感悟

大模型入门(2)——初读两篇论文后的感悟

这两天读了 GPG-A Simple and Strong Reinforcement Learning Baseline for Model Reasoning The Unreasonable Effectiveness of Entropy Minimization in LLM Reason

2025-07-21 LLM
大模型入门(1)——“人人都能看懂的RL-PPO理论知识”

大模型入门(1)——“人人都能看懂的RL-PPO理论知识”

在攻读第一篇文章“GPG-A Simple and Strong Reinforcement Learning Baseline for Model Reasoning”后发现自己在Method的策略梯度(PG)公式没看懂,所以先看看这一篇博客入门PPO和LLM的相关知识。 一、参考教程 Sutto

2025-07-21 LLM
运筹学

运筹学

课件及资料 https://pan.baidu.com/s/1DPvex9jALtIx0uWgyzBv0A?pwd=1895 提取码: 1895 个人感悟 这算是经管大类最后一个比较硬的公共课了,做课后作业和复习的时候需要投入一定的精力。不过考试难度不高,掌握基础和答题的模板即可。

2025-06-30 管理与经济
  • 1
  • 2
  • 3
  • 4
  • 5

Recently Updated

  • C++
  • Hello World
  • 数据仓库复习整理
  • 代码阅读与运行1
  • 大模型入门(6)——Agent、MCP、FunctionCall

Trending Tags

Halo 前端 强化学习 Python obsidian

©2026 Wang's Blog. Some rights reserved.

Using the Halo theme Chirpy