torch.unsqueeze
- PyTorch 深度学习实战(13):Proximal Policy Optimization 算法
-
在上一篇文章中,我们介绍了Actor-Critic算法,并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)...
- 显存暴降90%!Unsloth革新GRPO训练:长上下文推理从此触手可及
-
2025年2月,Unsloth团队发布重磅技术突破——基于GRPO算法的全新优化方案,将大模型训练的显存需求降低至传统方法的10%...
- Transformers 快速入门
-
理念Transformers是一个为NLP的研究人员寻求使用/研究/扩展大型Transformers模型的库。该库的设计有两个强烈的目标:尽可能简单和快速使用:我们尽可能限制了要学习的面向对象抽象的类的数量,实际上几乎没有抽象,每个模型只需要使用三个标准类:配置、模型和tokenizer,所有这...
- PyTorch 深度学习实战(12):Actor-Critic 算法与策略优化
-
在上一篇文章中,我们介绍了强化学习的基本概念,并使用深度Q网络(DQN)解决了CartPole问题。本文将深入探讨Actor-Critic算法,这是一种结合了策略梯度(PolicyGradient)和值函数(ValueFunction)的强化学习方法。我们将使用PyTorch实现...
- PyTorch 深度学习实战(14):Deep Deterministic Policy Gradient
-
在上一篇文章中,我们介绍了ProximalPolicyOptimization(PPO)算法,并使用它解决了CartPole问题。本文将深入探讨DeepDeterministicPolicyGradient(DDPG)...
- PyTorch 深度学习实战(17):A3C 算法与并行训练
-
在上一篇文章中,我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)...
- 使用Transformer来做物体检测
-
作者:JacobBriones...
- PyTorch 深度学习实战(16):Soft Actor-Critic (SAC) 算法
-
在上一篇文章中,我们介绍了TwinDelayedDDPG(TD3)...
- PyTorch 深度学习实战(26):多目标强化学习Multi-Objective RL
-
一、多目标强化学习原理1.多目标学习核心思想多目标强化学习(Multi-ObjectiveRL)旨在让智能体...