Preference Adaptive and Sequential Text-to-Image Generation

要約

インタラクティブなテキストからイメージ(T2I)生成の問題に対処し、一連のプロンプト拡張を通じてユーザーの生成された画像のセットを繰り返し改善する強化学習(RL)エージェントを設計します。
人間の評価者を使用して、大規模なオープンソース(非シーケンシャル)データセットとともに、これを活用するシーケンシャル設定の新しいデータセットを作成します。
EM戦略を使用してユーザープレーファレンスモデルとユーザー選択モデルを構築し、さまざまなユーザー嗜好タイプを特定します。
次に、大規模なマルチモーダル言語モデル(LMM)と価値ベースのRLアプローチを活用して、ユーザーへの迅速な拡張の適応的で多様なスレートを示唆します。
優先順位とシーケンシャルテキストからイメージへのエージェント(PASTA)は、適応的なマルチターン機能を備えたT2Iモデルを拡張し、共同の共同創造を促進し、ユーザーの意図における不確実性または不確実性に対処します。
人間の評価者を使用してパスタを評価し、ベースラインの方法と比較して大幅な改善を示します。
また、ユーザー中心のマルチターンT2Iシステムでの将来の研究をサポートするために、シーケンシャルレーターデータセットとシミュレートされたユーザーレーターインタラクションをオープンソーシングします。

要約(オリジナル)

We address the problem of interactive text-to-image (T2I) generation, designing a reinforcement learning (RL) agent which iteratively improves a set of generated images for a user through a sequence of prompt expansions. Using human raters, we create a novel dataset of sequential preferences, which we leverage, together with large-scale open-source (non-sequential) datasets. We construct user-preference and user-choice models using an EM strategy and identify varying user preference types. We then leverage a large multimodal language model (LMM) and a value-based RL approach to suggest an adaptive and diverse slate of prompt expansions to the user. Our Preference Adaptive and Sequential Text-to-image Agent (PASTA) extends T2I models with adaptive multi-turn capabilities, fostering collaborative co-creation and addressing uncertainty or underspecification in a user’s intent. We evaluate PASTA using human raters, showing significant improvement compared to baseline methods. We also open-source our sequential rater dataset and simulated user-rater interactions to support future research in user-centric multi-turn T2I systems.

arxiv情報

著者 Ofir Nabati,Guy Tennenholtz,ChihWei Hsu,Moonkyung Ryu,Deepak Ramachandran,Yinlam Chow,Xiang Li,Craig Boutilier
発行日 2025-05-28 16:35:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SY, eess.SY パーマリンク