paper-reading9

Posted on 2025-03-18 Edited on 2025-03-19 In paper-reading Views: Word count in article: 6.1k Reading time ≈ 6 mins.

paper-reading9

Reinforcement Learning-Based Fine-Tuning of Diffusion Models

一些有用的资料

General Introduction

Policy-based

我们的目标是最大化累计奖励(accumulated reward)

取梯度，注意公式

改进

针对reward

当前状态用于计算的reward取决于之后的奖励和，而不是整个轨迹上的奖励和。
对reward增加一个discount factor 。
用baseline 减去reward，以减少方差。

针对采样

原先收集数据的策略和待更新的策略是同一个，所以更新完一次策略后，需要重新收集数据。
考虑在一定步数内，用同一个策略收集数据，多次更新，然后再进行采样。
这样的问题是用于收集数据的策略和用于更新的策略不一样，需要进行重要性采样(importance sampling)。

重要性采样(importance sampling)

但需要注意的是p和q不能差太多，否则方差会比较大，因此需要限制参数更新的范围。

对原来的梯度应用重要性采样：

我们令，或者别的抽象的用于更新参数的奖励值。
令为更新前的参数，为更新后的参数。

再次利用公式，我们有：

防止梯度更新过大

A summary by Grok3

关键要点

研究表明，强化学习（RL）可用于微调扩散模型，以优化特定任务或奖励函数。
主要算法包括策略梯度方法（如PPO和DDPO）、直接奖励反向传播、奖励加权最大似然估计（MLE）、值加权采样和路径一致性学习（PCL）。
还有直接偏好优化（DPO）等方法，特别适用于基于偏好的微调。
这些方法的选择取决于奖励函数的性质，可能存在争议，尤其是在保持模型生成分布与原始分布的平衡上。

简介

扩散模型是一种生成模型，通过逆向扩散过程生成数据，广泛用于生成高质量的图像、文本等。使用强化学习（RL）来微调扩散模型，意味着将扩散过程视为一系列决策，优化模型以最大化某个奖励函数，从而提升其在特定任务上的表现。以下是几种主要的方向和算法，适合不同场景和需求。

策略梯度方法

策略梯度方法如近端策略优化（PPO）通过迭代更新策略来最大化预期奖励，稳定且简单。去噪扩散策略优化（DDPO）是其在扩散模型中的具体实现，特别适用于优化图像压缩性、美学质量等目标。

直接奖励反向传播

当奖励函数可微时，可以直接通过奖励函数反向传播梯度更新模型参数。这种方法计算效率高，适合奖励函数明确且可微分的场景。

奖励加权最大似然估计（MLE）

该方法通过调整模型参数，最大化高奖励样本的似然，适用于非可微奖励，倾向于生成更符合奖励函数的样本。

值加权采样

该方法在推理过程中使用值函数梯度指导采样，无需微调模型本身，内存效率高，适合有可微值函数的场景。

路径一致性学习（PCL）

PCL使用详细平衡或轨迹平衡损失，确保模型转换与奖励函数一致，特别适用于离线策略学习。

直接偏好优化（DPO）

DPO通过比较两个生成样本的偏好，更新模型以偏向较优样本，适合基于人类偏好或比较反馈的场景。

这些方法各有优势，研究建议根据奖励反馈类型选择：对于黑箱反馈（如非可微奖励），PPO和奖励加权MLE较合适；对于可微奖励，直接反向传播更高效。

详细报告

扩散模型作为一种生成模型，通过逐步添加噪声并学习逆向过程，已在图像生成、文本生成等领域表现出色。然而，在实际应用中，如生物学中的RNA翻译效率优化或分子对接得分最大化，扩散模型需要进一步微调以满足特定任务或优化下游奖励函数。使用强化学习（RL）来微调扩散模型，将其扩散过程视为多步决策问题，是一种新兴且有力的方法。本报告详细介绍几种主要方向和算法，涵盖理论基础、应用场景及相关研究。

理论背景

扩散模型通过前向过程逐步添加高斯噪声，逆向过程学习从噪声恢复数据。RL微调的核心是将每个去噪步骤视为决策，优化模型以最大化奖励函数。奖励函数可以是下游任务的性能指标（如图像美学质量）或人类反馈（如偏好排序）。这种方法结合了RL的决策优化能力和扩散模型的生成能力，特别适合需要精确控制生成结果的场景。

主要算法与方向

以下是几种主要的RL微调算法，基于近期研究（如Uehara等，2024）总结，涵盖非分布约束和分布约束方法：

策略梯度方法
- 近端策略优化（PPO）：基于Schulman等（2017）的PPO算法，通过策略梯度迭代更新模型，稳定且计算效率高，无需学习值函数。特别适合黑箱奖励反馈。
- 去噪扩散策略优化（DDPO）：Black等（2023）提出的方法，将去噪扩散视为多步决策问题，优化Stable Diffusion模型，适用于图像压缩性、美学质量等目标。DDPO在rl-diffusion.github.io有详细介绍，示例包括使用LLaVA模型反馈改善提示-图像对齐。
直接奖励反向传播
- 当奖励函数可微时（如Clark等，2023），可以直接通过奖励函数反向传播梯度更新模型参数。这种方法计算效率高，内存问题可通过梯度累积缓解，但要求奖励函数可微分，适合生物分子生成中的对接得分优化。
奖励加权最大似然估计（MLE）
- 基于Peters等（2010）和Peng等（2019）的理论，该方法通过加权高奖励样本的似然，调整模型参数。分布约束特性使其在保持生成分布的同时优化奖励上表现良好，但当权重为0时效果有限。代码实现可在GitHub找到。
值加权采样
- 该方法在推理过程中使用值函数梯度指导采样，无需微调模型本身，内存效率高。基于Tweedie公式近似，连接到分类器引导（Dhariwal和Nichol，2021）和Gflownets（Section 6.3）。适合不需要额外训练的场景，但要求值函数可微。
路径一致性学习（PCL）
- 基于Nachum等（2017）的轨迹平衡损失，PCL确保模型转换满足详细平衡条件，适合离线策略学习。分布约束特性使其在采样未归一化分布时表现良好，代码实现也在GitHub。与Gflownets损失等价，扩展到MCMC采样（Section 10）。
直接偏好优化（DPO）
- DPO（Wallace等，2023）通过比较两个生成样本的偏好，更新模型以偏向较优样本，特别适用于人类反馈或视觉语言模型反馈（如Wu等，2023）。在蛋白质生成模型中（如Widatalla等，2024）也有应用，适合需要对齐人类偏好的场景。

应用场景与选择

不同算法适用于不同奖励反馈类型： - 黑箱反馈（非可微奖励）：PPO和奖励加权MLE表现良好，适合无法直接计算梯度的场景。 - 可微奖励：直接反向传播计算效率高，适合生物学中的分子稳定性优化。 - 偏好反馈：DPO和DDPO适合基于人类或模型反馈的场景，如文本-图像对齐。

对比分析

以下表格总结各算法的特性，基于Uehara等（2024）的分类：

算法	描述	特性	适用场景
PPO	策略梯度迭代更新，稳定简单	内存高效，无需值函数学习	黑箱反馈
直接奖励反向传播	通过可微奖励函数反向传播梯度	计算高效，要求奖励可微	可微奖励优化
奖励加权MLE	加权高奖励样本似然，分布约束	内存高效，效果依赖权重，代码在GitHub	非可微奖励，保持分布
值加权采样	使用值函数梯度指导采样，无需微调	内存高效，无需训练，连接分类器引导	推理优化，值函数可微
PCL	基于轨迹平衡损失，分布约束	离线策略，代码在GitHub	未归一化分布采样
DPO	基于偏好比较优化模型	适合人类反馈，扩展到蛋白质生成（如bioRxiv，2024-05）	偏好对齐，视觉语言模型反馈

未来方向与争议

当前研究集中在如何平衡生成质量与奖励优化，分布约束方法（如MLE和PCL）在保持原始分布上表现优异，但可能牺牲灵活性。非分布约束方法（如PPO）更灵活，但可能导致生成分布偏移，引发争议，尤其在生物学应用中。未来可能探索混合方法，如结合熵正则化（Tang，2024）或反馈高效在线微调（Uehara等，2024）。

总结

RL微调扩散模型提供了多样化的工具，涵盖策略梯度、奖励反向传播、偏好优化等方向。选择合适算法需考虑奖励函数性质和应用场景，相关研究持续推进，特别是在文本-图像生成和生物分子设计领域。

paper-reading9

一些有用的资料

General Introduction

Policy-based

改进

针对reward

针对采样

重要性采样(importance sampling)

防止梯度更新过大

A summary by Grok3

关键要点

简介

策略梯度方法

直接奖励反向传播

奖励加权最大似然估计（MLE）

值加权采样

路径一致性学习（PCL）

直接偏好优化（DPO）

详细报告

理论背景

主要算法与方向

应用场景与选择

对比分析

未来方向与争议

总结

关键引文