Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty

要約

生成 AI モデルに対するユーザー プロンプトは、多くの場合、仕様が不十分であり、次善の応答につながります。
この問題は、一般にユーザーが正確な意図を表現するのに苦労するテキストから画像への (T2I) 生成で特に顕著です。
ユーザーのビジョンとモデルの解釈との間にこの断絶があるため、多くの場合、ユーザーはプロンプトを苦労して繰り返し改良する必要があります。
これに対処するために、(1) 不明な点がある場合は積極的に説明の質問をし、(2) ユーザーが編集できる理解可能な信念グラフとしてユーザーの意図の理解を提示するためのインターフェイスを備えたプロアクティブな T2I エージェントの設計を提案します。
私たちはそのようなエージェントの簡単なプロトタイプを構築し、人間による研究と自動評価の両方を通じてその有効性を検証します。
人間の被験者の少なくとも 90% が、これらのエージェントとその信念グラフが T2I ワークフローに役立つと感じていることが観察されました。
さらに、2 つのエージェントを使用したスケーラブルな自動評価アプローチを開発します。1 つはグラウンド トゥルースの画像を使用し、もう 1 つはグラウンド トゥルースと一致するようにできるだけ少ない質問を試みます。
アーティストやデザイナー向けに作成したベンチマークである DesignBench、COCO データセット (Lin et al.、2014)、および ImageInWords (Garg et al.、2024) では、これらの T2I エージェントが有益な質問をし、重要な質問を引き出すことができることが観察されました。
標準シングルターンよりも少なくとも 2 倍高い VQAScore (Lin et al., 2024) との整合を成功させるための情報
T2I世代。
デモ: https://github.com/google-deepmind/proactive_t2i_agents

要約(オリジナル)

User prompts for generative AI models are often underspecified, leading to sub-optimal responses. This problem is particularly evident in text-to-image (T2I) generation, where users commonly struggle to articulate their precise intent. This disconnect between the user’s vision and the model’s interpretation often forces users to painstakingly and repeatedly refine their prompts. To address this, we propose a design for proactive T2I agents equipped with an interface to (1) actively ask clarification questions when uncertain, and (2) present their understanding of user intent as an understandable belief graph that a user can edit. We build simple prototypes for such agents and verify their effectiveness through both human studies and automated evaluation. We observed that at least 90% of human subjects found these agents and their belief graphs helpful for their T2I workflow. Moreover, we develop a scalable automated evaluation approach using two agents, one with a ground truth image and the other tries to ask as few questions as possible to align with the ground truth. On DesignBench, a benchmark we created for artists and designers, the COCO dataset (Lin et al., 2014), and ImageInWords (Garg et al., 2024), we observed that these T2I agents were able to ask informative questions and elicit crucial information to achieve successful alignment with at least 2 times higher VQAScore (Lin et al., 2024) than the standard single-turn T2I generation. Demo: https://github.com/google-deepmind/proactive_t2i_agents.

arxiv情報

著者 Meera Hahn,Wenjun Zeng,Nithish Kannen,Rich Galt,Kartikeya Badola,Been Kim,Zi Wang
発行日 2024-12-09 18:56:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク