显存暴降90%!Unsloth革新GRPO训练:长上下文推理从此触手可及

ztj100 2025-04-26 22:46 71 浏览 0 评论

2025年2月，Unsloth团队发布重磅技术突破——基于GRPO算法的全新优化方案，将大模型训练的显存需求降低至传统方法的10%，并支持10倍长上下文处理能力！无论是1.5B的Qwen2.5还是8B的Llama 3.1，开发者仅需5GB至54GB显存即可高效训练模型，彻底打破资源壁垒。

文章深度揭秘Unsloth三大核心技术：内存高效线性算法、智能梯度检查点与vLLM深度集成，并开源免费Colab笔记本、动态量化模型及完整教程，助力开发者低成本实现长文本推理与复杂任务训练。

原文：
https://unsloth.ai/blog/grpo

作者：Daniel & Michael

翻译：

@北方的郎

翻译的过程中有小优化和调整

现在，您可以使用仅5GB的VRAM来训练自己的推理模型，适用于Qwen2.5（1.5B）——比我们两周前发布的GRPO版本所需的7GB有所减少！

译者：两周前的版本参考：北方的郎：突破AI推理极限：Unsloth引领R1模型的“顿悟时刻”,只需要7G显存即可训练R1

目前，实现更长的上下文长度是GRPO面临的最大挑战之一。我们新推出的Unsloth高效GRPO算法，在使用90%更少VRAM的情况下，能够实现比其他所有GRPO LoRA/QLoRA实现（包括那些使用Flash Attention 2 (FA2)的实现）长10倍的上下文长度。

在使用TRL + FA2的GRPO设置中，Llama 3.1（8B）在20K上下文长度下训练需要510.8GB的VRAM。然而，Unsloth的90% VRAM减少使得相同设置下的需求降至仅54.3GB。

试试我们的免费 GRPO 笔记本，上下文长 10 倍：Colab 上的 Llama 3.1 （8B）

我们强烈建议您阅读我们的指南对于 GRPO + 奖励函数/验证器上的所有内容。

查看我们的 GRPO 笔记本，其中包含 Phi-4 等其他型号这里.

附言如果您喜欢我们的工作，请不要忘记给我们加注：
github.com/unslothai/unsloth

长上下文的 VRAM 减少 90%

当您使用Unsloth进行GRPO时，我们通过多种技巧智能地减少了超过90%的VRAM使用量，与使用Flash Attention 2的标准实现相比！例如，在20K上下文长度下，每个提示生成8次，Unsloth仅使用54.3GB的VRAM用于Llama 3.1 8B，而标准实现需要510.8GB（Unsloth减少90%）。

我们用于 GRPO 的新内存高效线性算法将内存使用量削减了 8 倍或更多。这减少了 68.5GB 的内存，同时通过 torch.compile 的帮助，对于 num_generations = 8 和 20K 上下文长度，实际上速度更快。
我们利用我们的智能Unsloth 梯度检查点算法。它巧妙地将中间激活异步卸载到系统 RAM，同时仅慢了 1%。这减少了高达 372GB 的 VRAM，因为我们需要 num_generations = 8。我们可以通过中间梯度累积来进一步减少这种内存使用。
与其他软件包中的实现不同，Unsloth 还使用与底层推理引擎（vLLM）相同的 GPU/CUDA 内存空间。这将节省 16GB 的 VRAM。

Unsloth将长上下文GRPO的内存使用量减少了8倍，因此我们仅需要额外的9.8GB VRAM用于20K上下文长度！

我们还需要从16位的KV缓存中获取。Llama 3.1 8B有32层，K和V的大小均为1024。因此，20K上下文长度的内存使用量= 2 * 2字节 * 32层 * 20K上下文长度 * 1024 = 2.5GB每批次。我们将vLLM的批次大小设置为8，但为了节省VRAM，我们将其保留为1。否则，您将需要20GB用于KV缓存。

Unsloth 高效 GRPO 算法

我们从Horace He的线性交叉熵实现中获得了灵感，并成功使其适用于GRPO！我们实际上发现了一些令人惊讶的点：

参考GRPO实现使用反向KL散度，而不是前向KL散度。
在float16混合精度（以及float8）上天真地实现线性交叉熵，如果不正确处理，自动混合精度缩放机制将会失效。
我们在GRPO损失的实现中发现了其他怪癖——主要是在反向KL散度的公式方面。

GRPO的数学和发现的问题

GRPO首次在2024年2月至2024年4月的DeepSeek’s Math paper中引入，随后DeepSeek在创建DeepSeek R1时利用了GRPO算法，如他们的论文所述。

我们在这里利用Hugging Face的TRL GRPO实现。我们看到TRL实现执行：

其中我们利用反向KL散度（而不是前向KL散度）。Beta是一个设置为0.04的缩放因子，A是在考虑所有奖励函数后获得的优势。Q是新训练的模型，P是原始参考模型。

然后我们有趣地注意到，实现计算反向KL散度为：

但这实际上正确吗？我们首先尝试推导它，并收集类似项：

所以这意味着实现可能缺少乘以Q（新分布项）？

但这似乎是正确的，如在首次引入GRPO的DeepSeek数学论文第14页所见。同样，John Schulman的博客也指出，反向KL项的无偏估计实际上不需要额外的Q项。我们在博客中看到：

我们还有趣地发现：

torch.exp(q - q.detach()) * advantages.unsqueeze(1)

应该被评估为1，对吗？

我们实际上发现这是必要的——似乎自动梯度引擎可能没有正确传播梯度。

所以我们进行了4个实验：

通过参考实现进行正常GRPO（红线）
移除detach代码（蓝线）
完整反向KL，带有之前讨论的额外项（黄线）
前向KL散度代替（绿线）

总的来说，移除detach肯定会破坏所有训练，所以我们必须保留它——这很可能需要更多的调查。似乎所有其他实现都相似？我们可能需要运行模型更长时间才能看到不同的效果。

在所有实现中，我们还使用 logsumexp 技巧：

GRPO 的完整日志记录

我们现在还提供所有奖励函数的完整日志记录细节！之前我们只显示总聚合奖励函数本身。

您也不再需要调用函数来修补GRPO了！即，移除顶部的这个（我们自动完成）：

from unsloth import PatchFastRL
PatchFastRL("GRPO", FastLanguageModel)

vLLM 推理选项

我们现在还允许您将 FP8 KV 缓存用于 vLLM，从而在较新的 GPU（RTX 3090、A100 和更新版本）上将 KV 缓存空间使用量减少 2 倍

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "meta-llama/meta-Llama-3.1-8B-Instruct",
    max_seq_length = max_seq_length,
    load_in_4bit = True, # False for LoRA 16bit
    fast_inference = True, # Enable vLLM fast inference
    max_lora_rank = lora_rank,
    gpu_memory_utilization = 0.6, # Reduce if out of memory
    float8_kv_cache = True, # Enable float8 KV cache
)

其他更新

使用 vLLM 直接运行 Unsloth Dynamic 4 位

现在，您可以直接在 vLLM 中使用我们的动态量化运行和进行推理。这是由于接受的 PR我们对 vLLM 存储库执行了作。通过示例和基准测试，了解我们的动态量化如何比标准 4 位大幅提高精度这里.

GitHub Universe 访谈

在 GitHub 的 2024 Universe 大会上，我们在 10 月对 Andrea 进行了一次精彩的采访，现在视频已经发布！我们谈论了我们在澳大利亚的背景，我们如何建立 Unsloth，你们所有人都是多么了不起等等！在 YouTube 上观看

——完——

@北方的郎 · 专注模型与代码

喜欢的朋友，欢迎赞同、关注、分享三连 ^O^

torch.unsqueeze

上一篇：Transformers 快速入门
下一篇：C# 深度学习框架 TorchSharp 原生训练模型和图像识别-自定义网络模型和识别手写数字

显存暴降90%!Unsloth革新GRPO训练:长上下文推理从此触手可及

长上下文的 VRAM 减少 90%

Unsloth 高效 GRPO 算法

GRPO的数学和发现的问题

GRPO 的完整日志记录

vLLM 推理选项

其他更新

使用 vLLM 直接运行 Unsloth Dynamic 4 位

GitHub Universe 访谈

相关推荐

取消回复欢迎你发表评论:

Vue自定义Hook示例:useUrlState（vue中的自定义指令如何使用）

Vue-实现自定义插件弹窗（vue 实现弹窗）

MySQL中这14个小玩意，让人眼前一亮!

旗舰机新标杆 OPPO Find X2系列正式发布售价5499元起

什么是幂等?分布式锁如何实现业务幂等?

手把手教你搞定菜单权限设计，精确到按钮级别，建议收藏

如何发个 npm 包?

详解MySQL 字符串拼接之concat\concat_ws\group_concat

如何快速切换node版本?利用n包快速切换nodejs版本

【Python机器学习系列】建立多层感知机模型预测心脏疾病

显存暴降90%!Unsloth革新GRPO训练:长上下文推理从此触手可及

长上下文的 VRAM 减少 90%

Unsloth 高效 GRPO 算法

GRPO的数学和发现的问题

GRPO 的完整日志记录

vLLM 推理选项

其他更新

使用 vLLM 直接运行 Unsloth Dynamic 4 位

GitHub Universe 访谈

相关推荐

取消回复欢迎 你 发表评论:

Vue自定义Hook示例:useUrlState（vue中的自定义指令如何使用）

Vue-实现自定义插件弹窗（vue 实现弹窗）

MySQL中这14个小玩意，让人眼前一亮!

旗舰机新标杆 OPPO Find X2系列正式发布 售价5499元起

什么是幂等?分布式锁如何实现业务幂等?

手把手教你搞定菜单权限设计，精确到按钮级别，建议收藏

如何发个 npm 包?

详解MySQL 字符串拼接之concat\concat_ws\group_concat

如何快速切换node版本?利用n包快速切换nodejs版本

【Python机器学习系列】建立多层感知机模型预测心脏疾病

取消回复欢迎你发表评论:

旗舰机新标杆 OPPO Find X2系列正式发布售价5499元起