ARMADA: Attribute-Based Multimodal Data Augmentation

要約

マルチモーダル言語モデル (MLM) では、微調整や位置合わせのために高品質の画像とテキストのペアのデータに手動で注釈を付けるコストが非常に高くなります。
既存のマルチモーダル データ拡張フレームワークは、画像とテキストのペアを拡張する方法を提案していますが、テキストと画像の間で意味上の矛盾が生じるか、非現実的な画像が生成され、現実世界の例との知識ギャップが生じます。
これらの問題に対処するために、我々は属性ベースのマルチモーダル データ拡張 (ARMADA) を提案します。これは、言及されたエンティティの視覚的属性の知識に基づく操作による、新しいマルチモーダル データ拡張方法です。
具体的には、元のテキスト データからエンティティとその視覚属性を抽出し、ナレッジ ベース (KB) と大規模言語モデル (LLM) の指導の下で視覚属性の代替値を検索します。
次に、画像編集モデルを利用して、抽出された属性を持つ画像を編集します。
ARMADA は、新しいマルチモーダル データ生成フレームワークです。(i) 意味的に一貫性がありながら特徴的な画像とテキストのペアを生成するために、シンボリック KB から知識に基づいた属性を抽出します。(ii) KB 階層内の隣接するエンティティを使用して、異なるカテゴリの視覚的に類似した画像を生成します。
(iii) LLM の常識的な知識を使用して、元のエンティティをより堅牢に表現するために背景などの補助的な視覚属性を調整します。
4 つの下流タスクにわたる実証結果は、高品質のデータを生成し、モデルのパフォーマンスを向上させるフレームワークの有効性を示しています。
これは、解釈可能性と現実世界の根拠を高めるために、外部の知識プロキシを活用する必要性も強調しています。

要約(オリジナル)

In Multimodal Language Models (MLMs), the cost of manually annotating high-quality image-text pair data for fine-tuning and alignment is extremely high. While existing multimodal data augmentation frameworks propose ways to augment image-text pairs, they either suffer from semantic inconsistency between texts and images, or generate unrealistic images, causing knowledge gap with real world examples. To address these issues, we propose Attribute-based Multimodal Data Augmentation (ARMADA), a novel multimodal data augmentation method via knowledge-guided manipulation of visual attributes of the mentioned entities. Specifically, we extract entities and their visual attributes from the original text data, then search for alternative values for the visual attributes under the guidance of knowledge bases (KBs) and large language models (LLMs). We then utilize an image-editing model to edit the images with the extracted attributes. ARMADA is a novel multimodal data generation framework that: (i) extracts knowledge-grounded attributes from symbolic KBs for semantically consistent yet distinctive image-text pair generation, (ii) generates visually similar images of disparate categories using neighboring entities in the KB hierarchy, and (iii) uses the commonsense knowledge of LLMs to modulate auxiliary visual attributes such as backgrounds for more robust representation of original entities. Our empirical results over four downstream tasks demonstrate the efficacy of our framework to produce high-quality data and enhance the model performance. This also highlights the need to leverage external knowledge proxies for enhanced interpretability and real-world grounding.

arxiv情報

著者 Xiaomeng Jin,Jeonghwan Kim,Yu Zhou,Kuan-Hao Huang,Te-Lin Wu,Nanyun Peng,Heng Ji
発行日 2024-08-19 15:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク