要約
拡散モデルは、テキストから画像への変換やテキストからビデオへの変換など、条件付きデータのクロスモーダル生成タスクに広く使用されています。
しかし、最先端のモデルは、生成された視覚的概念を、オブジェクト数や空間関係などの言語の高レベルのセマンティクスと整合させることがまだできていません。私たちは、マルチモーダル データ フュージョンの観点からこの問題にアプローチし、どのように異なるかを調査します。
融合戦略は視覚と言語の整合に影響を与える可能性があります。
事前トレーニングされた画像特徴空間での条件付けテキストの広く使用されている初期融合と比較して、特別に設計された中間融合では、(i) 生成品質の向上によりテキストと画像の位置合わせが向上し、(ii) トレーニングと推論の効率が向上することがわかりました。
低ランクのテキストから画像への注意計算を減らすことによって。
MS-COCO データセットに対してテキストから画像への生成タスクを使用して実験を実行します。
U 字型 ViT バックボーン上の 2 つの一般的なコンディショニング方法について、中間融合メカニズムと古典的な初期融合メカニズムを比較します。
当社の中間融合モデルは、初期融合による強力な U-ViT ベースラインと比較して、より高い CLIP スコアと低い FID を達成し、FLOP が 20% 減少し、トレーニング速度が 50% 増加しました。
要約(オリジナル)
Diffusion models have been widely used for conditional data cross-modal generation tasks such as text-to-image and text-to-video. However, state-of-the-art models still fail to align the generated visual concepts with high-level semantics in a language such as object count, spatial relationship, etc. We approach this problem from a multimodal data fusion perspective and investigate how different fusion strategies can affect vision-language alignment. We discover that compared to the widely used early fusion of conditioning text in a pretrained image feature space, a specially designed intermediate fusion can: (i) boost text-to-image alignment with improved generation quality and (ii) improve training and inference efficiency by reducing low-rank text-to-image attention calculations. We perform experiments using a text-to-image generation task on the MS-COCO dataset. We compare our intermediate fusion mechanism with the classic early fusion mechanism on two common conditioning methods on a U-shaped ViT backbone. Our intermediate fusion model achieves a higher CLIP Score and lower FID, with 20% reduced FLOPs, and 50% increased training speed compared to a strong U-ViT baseline with an early fusion.
arxiv情報
著者 | Zizhao Hu,Shaochong Jia,Mohammad Rostami |
発行日 | 2024-03-25 08:16:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google