paper-reading9

paper-reading9

Reinforcement Learning-Based Fine-Tuning of Diffusion Models

一些有用的资料

General Introduction

Policy-based

我们的目标是最大化累计奖励(accumulated reward)

取梯度,注意公式

改进

针对reward

  1. 当前状态用于计算的reward取决于之后的奖励和,而不是整个轨迹上的奖励和。
  2. 对reward增加一个discount factor
  3. 用baseline 减去reward,以减少方差。

针对采样

原先收集数据的策略和待更新的策略是同一个,所以更新完一次策略后,需要重新收集数据。
考虑在一定步数内,用同一个策略收集数据,多次更新,然后再进行采样。
这样的问题是用于收集数据的策略和用于更新的策略不一样,需要进行重要性采样(importance sampling)。

重要性采样(importance sampling)

但需要注意的是p和q不能差太多,否则方差会比较大,因此需要限制参数更新的范围。

对原来的梯度应用重要性采样:

我们令,或者别的抽象的用于更新参数的奖励值。
为更新前的参数,为更新后的参数。

再次利用公式,我们有:

防止梯度更新过大

A summary by Grok3

关键要点

  • 研究表明,强化学习(RL)可用于微调扩散模型,以优化特定任务或奖励函数。
  • 主要算法包括策略梯度方法(如PPO和DDPO)、直接奖励反向传播、奖励加权最大似然估计(MLE)、值加权采样和路径一致性学习(PCL)。
  • 还有直接偏好优化(DPO)等方法,特别适用于基于偏好的微调。
  • 这些方法的选择取决于奖励函数的性质,可能存在争议,尤其是在保持模型生成分布与原始分布的平衡上。

简介

扩散模型是一种生成模型,通过逆向扩散过程生成数据,广泛用于生成高质量的图像、文本等。使用强化学习(RL)来微调扩散模型,意味着将扩散过程视为一系列决策,优化模型以最大化某个奖励函数,从而提升其在特定任务上的表现。以下是几种主要的方向和算法,适合不同场景和需求。

策略梯度方法

策略梯度方法如近端策略优化(PPO)通过迭代更新策略来最大化预期奖励,稳定且简单。去噪扩散策略优化(DDPO)是其在扩散模型中的具体实现,特别适用于优化图像压缩性、美学质量等目标。

直接奖励反向传播

当奖励函数可微时,可以直接通过奖励函数反向传播梯度更新模型参数。这种方法计算效率高,适合奖励函数明确且可微分的场景。

奖励加权最大似然估计(MLE)

该方法通过调整模型参数,最大化高奖励样本的似然,适用于非可微奖励,倾向于生成更符合奖励函数的样本。

值加权采样

该方法在推理过程中使用值函数梯度指导采样,无需微调模型本身,内存效率高,适合有可微值函数的场景。

路径一致性学习(PCL)

PCL使用详细平衡或轨迹平衡损失,确保模型转换与奖励函数一致,特别适用于离线策略学习。

直接偏好优化(DPO)

DPO通过比较两个生成样本的偏好,更新模型以偏向较优样本,适合基于人类偏好或比较反馈的场景。

这些方法各有优势,研究建议根据奖励反馈类型选择:对于黑箱反馈(如非可微奖励),PPO和奖励加权MLE较合适;对于可微奖励,直接反向传播更高效。


详细报告

扩散模型作为一种生成模型,通过逐步添加噪声并学习逆向过程,已在图像生成、文本生成等领域表现出色。然而,在实际应用中,如生物学中的RNA翻译效率优化或分子对接得分最大化,扩散模型需要进一步微调以满足特定任务或优化下游奖励函数。使用强化学习(RL)来微调扩散模型,将其扩散过程视为多步决策问题,是一种新兴且有力的方法。本报告详细介绍几种主要方向和算法,涵盖理论基础、应用场景及相关研究。

理论背景

扩散模型通过前向过程逐步添加高斯噪声,逆向过程学习从噪声恢复数据。RL微调的核心是将每个去噪步骤视为决策,优化模型以最大化奖励函数。奖励函数可以是下游任务的性能指标(如图像美学质量)或人类反馈(如偏好排序)。这种方法结合了RL的决策优化能力和扩散模型的生成能力,特别适合需要精确控制生成结果的场景。

主要算法与方向

以下是几种主要的RL微调算法,基于近期研究(如Uehara等,2024)总结,涵盖非分布约束和分布约束方法:

  1. 策略梯度方法
    • 近端策略优化(PPO):基于Schulman等(2017)的PPO算法,通过策略梯度迭代更新模型,稳定且计算效率高,无需学习值函数。特别适合黑箱奖励反馈。
    • 去噪扩散策略优化(DDPO):Black等(2023)提出的方法,将去噪扩散视为多步决策问题,优化Stable Diffusion模型,适用于图像压缩性、美学质量等目标。DDPO在rl-diffusion.github.io有详细介绍,示例包括使用LLaVA模型反馈改善提示-图像对齐。
  2. 直接奖励反向传播
    • 当奖励函数可微时(如Clark等,2023),可以直接通过奖励函数反向传播梯度更新模型参数。这种方法计算效率高,内存问题可通过梯度累积缓解,但要求奖励函数可微分,适合生物分子生成中的对接得分优化。
  3. 奖励加权最大似然估计(MLE)
    • 基于Peters等(2010)和Peng等(2019)的理论,该方法通过加权高奖励样本的似然,调整模型参数。分布约束特性使其在保持生成分布的同时优化奖励上表现良好,但当权重为0时效果有限。代码实现可在GitHub找到。
  4. 值加权采样
    • 该方法在推理过程中使用值函数梯度指导采样,无需微调模型本身,内存效率高。基于Tweedie公式近似,连接到分类器引导(Dhariwal和Nichol,2021)和Gflownets(Section 6.3)。适合不需要额外训练的场景,但要求值函数可微。
  5. 路径一致性学习(PCL)
    • 基于Nachum等(2017)的轨迹平衡损失,PCL确保模型转换满足详细平衡条件,适合离线策略学习。分布约束特性使其在采样未归一化分布时表现良好,代码实现也在GitHub。与Gflownets损失等价,扩展到MCMC采样(Section 10)。
  6. 直接偏好优化(DPO)
    • DPO(Wallace等,2023)通过比较两个生成样本的偏好,更新模型以偏向较优样本,特别适用于人类反馈或视觉语言模型反馈(如Wu等,2023)。在蛋白质生成模型中(如Widatalla等,2024)也有应用,适合需要对齐人类偏好的场景。

应用场景与选择

不同算法适用于不同奖励反馈类型: - 黑箱反馈(非可微奖励):PPO和奖励加权MLE表现良好,适合无法直接计算梯度的场景。 - 可微奖励:直接反向传播计算效率高,适合生物学中的分子稳定性优化。 - 偏好反馈:DPO和DDPO适合基于人类或模型反馈的场景,如文本-图像对齐。

对比分析

以下表格总结各算法的特性,基于Uehara等(2024)的分类:

算法 描述 特性 适用场景
PPO 策略梯度迭代更新,稳定简单 内存高效,无需值函数学习 黑箱反馈
直接奖励反向传播 通过可微奖励函数反向传播梯度 计算高效,要求奖励可微 可微奖励优化
奖励加权MLE 加权高奖励样本似然,分布约束 内存高效,效果依赖权重,代码在GitHub 非可微奖励,保持分布
值加权采样 使用值函数梯度指导采样,无需微调 内存高效,无需训练,连接分类器引导 推理优化,值函数可微
PCL 基于轨迹平衡损失,分布约束 离线策略,代码在GitHub 未归一化分布采样
DPO 基于偏好比较优化模型 适合人类反馈,扩展到蛋白质生成(如bioRxiv,2024-05) 偏好对齐,视觉语言模型反馈

未来方向与争议

当前研究集中在如何平衡生成质量与奖励优化,分布约束方法(如MLE和PCL)在保持原始分布上表现优异,但可能牺牲灵活性。非分布约束方法(如PPO)更灵活,但可能导致生成分布偏移,引发争议,尤其在生物学应用中。未来可能探索混合方法,如结合熵正则化(Tang,2024)或反馈高效在线微调(Uehara等,2024)。

总结

RL微调扩散模型提供了多样化的工具,涵盖策略梯度、奖励反向传播、偏好优化等方向。选择合适算法需考虑奖励函数性质和应用场景,相关研究持续推进,特别是在文本-图像生成和生物分子设计领域。


关键引文