百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类
显存暴降90%!Unsloth革新GRPO训练:长上下文推理从此触手可及

2025年2月,Unsloth团队发布重磅技术突破——基于GRPO算法的全新优化方案,将大模型训练的显存需求降低至传统方法的10%...

Transformers 快速入门

理念Transformers是一个为NLP的研究人员寻求使用/研究/扩展大型Transformers模型的库。该库的设计有两个强烈的目标:尽可能简单和快速使用:我们尽可能限制了要学习的面向对象抽象的...

PyTorch 深度学习实战(12):Actor-Critic 算法与策略优化

在上一篇文章中,我们介绍了强化学习的基本概念,并使用深度Q网络(DQN)解决了CartPole问题。本文将深入探讨Actor-Critic算法,这是一种结合了策略梯度(PolicyGra...

PyTorch 深度学习实战(14):Deep Deterministic Policy Gradient

在上一篇文章中,我们介绍了ProximalPolicyOptimization(PPO)算法,并使用它解决了CartPole问题。本文将深入探讨DeepDeterministicP...

PyTorch 深度学习实战(17):A3C 算法与并行训练

在上一篇文章中,我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantage...

使用Transformer来做物体检测

作者:JacobBriones...

PyTorch 深度学习实战(16):Soft Actor-Critic (SAC) 算法

在上一篇文章中,我们介绍了TwinDelayedDDPG(TD3)...

PyTorch 深度学习实战(26):多目标强化学习Multi-Objective RL

一、多目标强化学习原理1.多目标学习核心思想多目标强化学习(Multi-ObjectiveRL)旨在让智能体...

用Python将照片转换为Ghibli风格

你喜欢吉卜力工作室梦幻般的艺术风格吗?如果我说你可以用自己拍的照片制作吉卜力风格的艺术作品呢?而且用Python和AI——这并不像听起来那么难!我将展示如何使用Python将我们的照片转换成看起来像是...

古董GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

编辑:KingHZ...