要約
並外れた生成能力にもかかわらず、大規模なテキストから画像への拡散モデルは、熟練しているが不注意なアーティストと同様に、オブジェクト間の視覚的な関係を正確に描写するのに苦労することがよくあります。
この問題は、注意深く分析することで明らかになりましたが、特定の関係を解釈し、関連するオブジェクトの論理的順序を区別するのに苦労するテキスト エンコーダの位置がずれていることが原因で発生します。
これを解決するために、Relation Rectification と呼ばれる新しいタスクを導入します。これは、最初に生成できなかった特定の関係を正確に表現するようにモデルを改良することを目的としています。
これに対処するために、ヘテロジニアス グラフ畳み込みネットワーク (HGCN) を利用した革新的なソリューションを提案します。
これは、入力プロンプト内の関係項と対応するオブジェクトの間の方向関係をモデル化します。
具体的には、同一の関係単語を含むがオブジェクトの順序が逆になっているペアのプロンプトで HGCN を最適化し、いくつかの参照画像で補足します。
軽量の HGCN は、テキスト エンコーダーによって生成されたテキストの埋め込みを調整し、埋め込み空間内のテキストの関係を正確に反映します。
重要なことは、私たちの方法はテキスト エンコーダと拡散モデルのパラメータを保持し、無関係な記述に対するモデルの堅牢なパフォーマンスを維持することです。
私たちは、新しく精選された多様な関係データのデータセットでアプローチを検証し、正確な視覚的関係を持つ画像の生成における量的および質的な強化を実証しました。
プロジェクトページ: https://wuyinwei-hah.github.io/rrnet.github.io/。
要約(オリジナル)
Despite their exceptional generative abilities, large text-to-image diffusion models, much like skilled but careless artists, often struggle with accurately depicting visual relationships between objects. This issue, as we uncover through careful analysis, arises from a misaligned text encoder that struggles to interpret specific relationships and differentiate the logical order of associated objects. To resolve this, we introduce a novel task termed Relation Rectification, aiming to refine the model to accurately represent a given relationship it initially fails to generate. To address this, we propose an innovative solution utilizing a Heterogeneous Graph Convolutional Network (HGCN). It models the directional relationships between relation terms and corresponding objects within the input prompts. Specifically, we optimize the HGCN on a pair of prompts with identical relational words but reversed object orders, supplemented by a few reference images. The lightweight HGCN adjusts the text embeddings generated by the text encoder, ensuring the accurate reflection of the textual relation in the embedding space. Crucially, our method retains the parameters of the text encoder and diffusion model, preserving the model’s robust performance on unrelated descriptions. We validated our approach on a newly curated dataset of diverse relational data, demonstrating both quantitative and qualitative enhancements in generating images with precise visual relations. Project page: https://wuyinwei-hah.github.io/rrnet.github.io/.
arxiv情報
著者 | Yinwei Wu,Xingyi Yang,Xinchao Wang |
発行日 | 2024-03-29 15:54:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google