LTOS: Layout-controllable Text-Object Synthesis via Adaptive Cross-attention Fusions

要約

制御可能なテキストから画像への生成は、特定の条件で画像内のビジュアル テキストとオブジェクトを合成します。これは、絵文字やポスターの生成に頻繁に適用されます。
ビジュアル テキスト レンダリングおよびレイアウトから画像への生成タスクは、制御可能なテキストから画像への生成において一般的です。
ただし、これらの各タスクは通常、単一のモダリティの生成またはレンダリングに焦点を当てており、各タスクに対応して設計されたアプローチの間にはまだ埋められていないギャップが残っています。
このペーパーでは、テキストのレンダリングとレイアウトから画像への生成タスクを 1 つのタスクに結合します。レイアウト制御可能なテキストオブジェクト合成 (LTOS) タスクです。これは、事前定義されたオブジェクトのレイアウトとテキストの内容に基づいて、画像とオブジェクトおよびビジュアル テキストを合成することを目的としています。

準拠したデータセットは LTOS タスクではすぐに利用できないため、ビジュアル テキストとオブジェクト情報の精巧に整列されたラベルを含む、レイアウトを意識したテキスト オブジェクト合成データセットを構築します。
データセットに基づいて、明確で読みやすいビジュアル テキストともっともらしいオブジェクトを含む画像を生成する、レイアウト制御可能なテキスト オブジェクト アダプティブ フュージョン (TOF) フレームワークを提案します。
テキストを合成するビジュアルテキストレンダリングモジュールを構築し、オブジェクトを生成するオブジェクトレイアウト制御モジュールを採用し、この 2 つのモジュールを統合してテキストコンテンツと画像内のオブジェクトを調和的に生成および統合します。
画像とテキストの統合を改善するために、画像生成時に重要なテキスト情報にさらに注目できるようにする自己適応型クロスアテンション フュージョン モジュールを提案します。
このような融合モジュール内では、自己適応学習可能な要素を使用して、画像生成に対するクロスアテンション出力の影響を柔軟に制御する方法を学習します。
実験結果は、私たちの方法が LTOS、テキスト レンダリング、およびレイアウトから画像へのタスクにおいて最先端の方法を上回り、調和のとれたビジュアル テキスト レンダリングとオブジェクト生成を可能にすることを示しています。

要約(オリジナル)

Controllable text-to-image generation synthesizes visual text and objects in images with certain conditions, which are frequently applied to emoji and poster generation. Visual text rendering and layout-to-image generation tasks have been popular in controllable text-to-image generation. However, each of these tasks typically focuses on single modality generation or rendering, leaving yet-to-be-bridged gaps between the approaches correspondingly designed for each of the tasks. In this paper, we combine text rendering and layout-to-image generation tasks into a single task: layout-controllable text-object synthesis (LTOS) task, aiming at synthesizing images with object and visual text based on predefined object layout and text contents. As compliant datasets are not readily available for our LTOS task, we construct a layout-aware text-object synthesis dataset, containing elaborate well-aligned labels of visual text and object information. Based on the dataset, we propose a layout-controllable text-object adaptive fusion (TOF) framework, which generates images with clear, legible visual text and plausible objects. We construct a visual-text rendering module to synthesize text and employ an object-layout control module to generate objects while integrating the two modules to harmoniously generate and integrate text content and objects in images. To better the image-text integration, we propose a self-adaptive cross-attention fusion module that helps the image generation to attend more to important text information. Within such a fusion module, we use a self-adaptive learnable factor to learn to flexibly control the influence of cross-attention outputs on image generation. Experimental results show that our method outperforms the state-of-the-art in LTOS, text rendering, and layout-to-image tasks, enabling harmonious visual text rendering and object generation.

arxiv情報

著者 Xiaoran Zhao,Tianhao Wu,Yu Lai,Zhiliang Tian,Zhen Huang,Yahui Liu,Zejiang He,Dongsheng Li
発行日 2024-11-26 14:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク