paper-reading9
paper-reading9
Reinforcement Learning-Based Fine-Tuning of Diffusion Models
一些有用的资料
- from RLHF to
DPO
- Understanding
Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial
and Review
- Deep Reinforcement Learning by Hung-yi Lee
General Introduction
Policy-based
我们的目标是最大化累计奖励(accumulated reward)
取梯度,注意公式
改进
针对reward
- 当前状态用于计算的reward取决于之后的奖励和,而不是整个轨迹上的奖励和。
- 对reward增加一个discount factor
。
- 用baseline
减去reward,以减少方差。
针对采样
原先收集数据的策略和待更新的策略是同一个,所以更新完一次策略后,需要重新收集数据。
考虑在一定步数内,用同一个策略收集数据,多次更新,然后再进行采样。
这样的问题是用于收集数据的策略和用于更新的策略不一样,需要进行重要性采样(importance
sampling)。
重要性采样(importance sampling)
但需要注意的是p和q不能差太多,否则方差会比较大,因此需要限制参数更新的范围。
对原来的梯度应用重要性采样:
我们令
令
再次利用公式
防止梯度更新过大
A summary by Grok3
关键要点
- 研究表明,强化学习(RL)可用于微调扩散模型,以优化特定任务或奖励函数。
- 主要算法包括策略梯度方法(如PPO和DDPO)、直接奖励反向传播、奖励加权最大似然估计(MLE)、值加权采样和路径一致性学习(PCL)。
- 还有直接偏好优化(DPO)等方法,特别适用于基于偏好的微调。
- 这些方法的选择取决于奖励函数的性质,可能存在争议,尤其是在保持模型生成分布与原始分布的平衡上。
简介
扩散模型是一种生成模型,通过逆向扩散过程生成数据,广泛用于生成高质量的图像、文本等。使用强化学习(RL)来微调扩散模型,意味着将扩散过程视为一系列决策,优化模型以最大化某个奖励函数,从而提升其在特定任务上的表现。以下是几种主要的方向和算法,适合不同场景和需求。
策略梯度方法
策略梯度方法如近端策略优化(PPO)通过迭代更新策略来最大化预期奖励,稳定且简单。去噪扩散策略优化(DDPO)是其在扩散模型中的具体实现,特别适用于优化图像压缩性、美学质量等目标。
直接奖励反向传播
当奖励函数可微时,可以直接通过奖励函数反向传播梯度更新模型参数。这种方法计算效率高,适合奖励函数明确且可微分的场景。
奖励加权最大似然估计(MLE)
该方法通过调整模型参数,最大化高奖励样本的似然,适用于非可微奖励,倾向于生成更符合奖励函数的样本。
值加权采样
该方法在推理过程中使用值函数梯度指导采样,无需微调模型本身,内存效率高,适合有可微值函数的场景。
路径一致性学习(PCL)
PCL使用详细平衡或轨迹平衡损失,确保模型转换与奖励函数一致,特别适用于离线策略学习。
直接偏好优化(DPO)
DPO通过比较两个生成样本的偏好,更新模型以偏向较优样本,适合基于人类偏好或比较反馈的场景。
这些方法各有优势,研究建议根据奖励反馈类型选择:对于黑箱反馈(如非可微奖励),PPO和奖励加权MLE较合适;对于可微奖励,直接反向传播更高效。
详细报告
扩散模型作为一种生成模型,通过逐步添加噪声并学习逆向过程,已在图像生成、文本生成等领域表现出色。然而,在实际应用中,如生物学中的RNA翻译效率优化或分子对接得分最大化,扩散模型需要进一步微调以满足特定任务或优化下游奖励函数。使用强化学习(RL)来微调扩散模型,将其扩散过程视为多步决策问题,是一种新兴且有力的方法。本报告详细介绍几种主要方向和算法,涵盖理论基础、应用场景及相关研究。
理论背景
扩散模型通过前向过程逐步添加高斯噪声,逆向过程学习从噪声恢复数据。RL微调的核心是将每个去噪步骤视为决策,优化模型以最大化奖励函数。奖励函数可以是下游任务的性能指标(如图像美学质量)或人类反馈(如偏好排序)。这种方法结合了RL的决策优化能力和扩散模型的生成能力,特别适合需要精确控制生成结果的场景。
主要算法与方向
以下是几种主要的RL微调算法,基于近期研究(如Uehara等,2024)总结,涵盖非分布约束和分布约束方法:
- 策略梯度方法
- 近端策略优化(PPO):基于Schulman等(2017)的PPO算法,通过策略梯度迭代更新模型,稳定且计算效率高,无需学习值函数。特别适合黑箱奖励反馈。
- 去噪扩散策略优化(DDPO):Black等(2023)提出的方法,将去噪扩散视为多步决策问题,优化Stable Diffusion模型,适用于图像压缩性、美学质量等目标。DDPO在rl-diffusion.github.io有详细介绍,示例包括使用LLaVA模型反馈改善提示-图像对齐。
- 直接奖励反向传播
- 当奖励函数可微时(如Clark等,2023),可以直接通过奖励函数反向传播梯度更新模型参数。这种方法计算效率高,内存问题可通过梯度累积缓解,但要求奖励函数可微分,适合生物分子生成中的对接得分优化。
- 奖励加权最大似然估计(MLE)
- 基于Peters等(2010)和Peng等(2019)的理论,该方法通过加权高奖励样本的似然,调整模型参数。分布约束特性使其在保持生成分布的同时优化奖励上表现良好,但当权重为0时效果有限。代码实现可在GitHub找到。
- 值加权采样
- 该方法在推理过程中使用值函数梯度指导采样,无需微调模型本身,内存效率高。基于Tweedie公式近似,连接到分类器引导(Dhariwal和Nichol,2021)和Gflownets(Section 6.3)。适合不需要额外训练的场景,但要求值函数可微。
- 路径一致性学习(PCL)
- 基于Nachum等(2017)的轨迹平衡损失,PCL确保模型转换满足详细平衡条件,适合离线策略学习。分布约束特性使其在采样未归一化分布时表现良好,代码实现也在GitHub。与Gflownets损失等价,扩展到MCMC采样(Section 10)。
- 直接偏好优化(DPO)
- DPO(Wallace等,2023)通过比较两个生成样本的偏好,更新模型以偏向较优样本,特别适用于人类反馈或视觉语言模型反馈(如Wu等,2023)。在蛋白质生成模型中(如Widatalla等,2024)也有应用,适合需要对齐人类偏好的场景。
应用场景与选择
不同算法适用于不同奖励反馈类型: - 黑箱反馈(非可微奖励):PPO和奖励加权MLE表现良好,适合无法直接计算梯度的场景。 - 可微奖励:直接反向传播计算效率高,适合生物学中的分子稳定性优化。 - 偏好反馈:DPO和DDPO适合基于人类或模型反馈的场景,如文本-图像对齐。
对比分析
以下表格总结各算法的特性,基于Uehara等(2024)的分类:
算法 | 描述 | 特性 | 适用场景 |
---|---|---|---|
PPO | 策略梯度迭代更新,稳定简单 | 内存高效,无需值函数学习 | 黑箱反馈 |
直接奖励反向传播 | 通过可微奖励函数反向传播梯度 | 计算高效,要求奖励可微 | 可微奖励优化 |
奖励加权MLE | 加权高奖励样本似然,分布约束 | 内存高效,效果依赖权重,代码在GitHub | 非可微奖励,保持分布 |
值加权采样 | 使用值函数梯度指导采样,无需微调 | 内存高效,无需训练,连接分类器引导 | 推理优化,值函数可微 |
PCL | 基于轨迹平衡损失,分布约束 | 离线策略,代码在GitHub | 未归一化分布采样 |
DPO | 基于偏好比较优化模型 | 适合人类反馈,扩展到蛋白质生成(如bioRxiv,2024-05) | 偏好对齐,视觉语言模型反馈 |
未来方向与争议
当前研究集中在如何平衡生成质量与奖励优化,分布约束方法(如MLE和PCL)在保持原始分布上表现优异,但可能牺牲灵活性。非分布约束方法(如PPO)更灵活,但可能导致生成分布偏移,引发争议,尤其在生物学应用中。未来可能探索混合方法,如结合熵正则化(Tang,2024)或反馈高效在线微调(Uehara等,2024)。
总结
RL微调扩散模型提供了多样化的工具,涵盖策略梯度、奖励反向传播、偏好优化等方向。选择合适算法需考虑奖励函数性质和应用场景,相关研究持续推进,特别是在文本-图像生成和生物分子设计领域。
关键引文
- Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review
- Training diffusion models with reinforcement learning
- Directly fine-tuning diffusion models on differentiable rewards
- DPOK: Reinforcement learning for fine-tuning text-to-image diffusion models
- Aligning text-to-image diffusion models with reward backpropagation
- Diffusion model alignment using direct preference optimization