Embedding an Ethical Mind: Aligning Text-to-Image Synthesis via Lightweight Value Optimization

要約

大規模データでトレーニングされた拡散モデルの最近の進歩により、人間レベルの見分けがつかない画像の生成が可能になりましたが、社会的偏見や攻撃的なコンテンツなど、人間の価値観と一致しない有害なコンテンツが生成されることもよくあります。
大規模言語モデル (LLM) に関する広範な研究にもかかわらず、Text-to-Image (T2I) モデルの位置合わせの課題はほとんど解明されていないままです。
この問題に対処するために、私たちは、T2I モデルを人間の価値観に合わせるための新しい軽量方法である LiVO (Lightweight Value Optimization) を提案します。
LiVO は、指定された値の原則を入力プロンプトと統合するためにプラグアンドプレイ値エンコーダーのみを最適化し、セマンティクスと値の両方にわたって生成されたイメージの制御を可能にします。
具体的には、拡散モデルに合わせたプリファレンス最適化損失を設計します。これは理論的には LLM アライメントで使用される Bradley-Terry モデルに近似しますが、画質と値の適合性の間でより柔軟なトレードオフを提供します。
値エンコーダーを最適化するために、86k (プロンプト、位置合わせ画像、違反画像、価値原理) サンプルのテキスト画像嗜好データセットを自動的に構築するフレームワークも開発します。
ほとんどのモデル パラメーターを更新せずに、入力プロンプトからの適応的な値の選択を通じて、LiVO は有害な出力を大幅に削減し、より迅速な収束を達成し、いくつかの強力なベースラインを超え、倫理的に整合した T2I モデルに向けた最初の一歩を踏み出します。

要約(オリジナル)

Recent advancements in diffusion models trained on large-scale data have enabled the generation of indistinguishable human-level images, yet they often produce harmful content misaligned with human values, e.g., social bias, and offensive content. Despite extensive research on Large Language Models (LLMs), the challenge of Text-to-Image (T2I) model alignment remains largely unexplored. Addressing this problem, we propose LiVO (Lightweight Value Optimization), a novel lightweight method for aligning T2I models with human values. LiVO only optimizes a plug-and-play value encoder to integrate a specified value principle with the input prompt, allowing the control of generated images over both semantics and values. Specifically, we design a diffusion model-tailored preference optimization loss, which theoretically approximates the Bradley-Terry model used in LLM alignment but provides a more flexible trade-off between image quality and value conformity. To optimize the value encoder, we also develop a framework to automatically construct a text-image preference dataset of 86k (prompt, aligned image, violating image, value principle) samples. Without updating most model parameters and through adaptive value selection from the input prompt, LiVO significantly reduces harmful outputs and achieves faster convergence, surpassing several strong baselines and taking an initial step towards ethically aligned T2I models.

arxiv情報

著者 Xingqi Wang,Xiaoyuan Yi,Xing Xie,Jia Jia
発行日 2024-10-16 16:03:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG, cs.MM パーマリンク