要約
反事実の例は、自然言語処理 (NLP) の分野において、データセット内の偽の相関に対する言語モデルの堅牢性を評価および改善するために有益であることが証明されています。
NLP での有用性が証明されているにもかかわらず、マルチモーダル反事実例は、反事実の変更を最小限に抑えた画像とテキストのペアデータを作成することが難しいため、比較的研究されていません。
この課題に対処するために、テキストから画像への拡散モデルを使用して反事実の例を自動生成するためのスケーラブルなフレームワークを導入します。
私たちはフレームワークを使用して、MS-COCO データセットに基づいた画像とテキストのキャプションのペアからなるマルチモーダル反事実データセットである COCO-Counterfactuals を作成します。
私たちは人間による評価を通じて COCO 反事実の品質を検証し、既存のマルチモーダル モデルが反事実の画像とテキストのペアによって困難であることを示します。
さらに、トレーニングデータの拡張を通じてマルチモーダル視覚言語モデルの領域外一般化を改善するための COCO-Counterfactuals の有用性を実証します。
要約(オリジナル)
Counterfactual examples have proven to be valuable in the field of natural language processing (NLP) for both evaluating and improving the robustness of language models to spurious correlations in datasets. Despite their demonstrated utility for NLP, multimodal counterfactual examples have been relatively unexplored due to the difficulty of creating paired image-text data with minimal counterfactual changes. To address this challenge, we introduce a scalable framework for automatic generation of counterfactual examples using text-to-image diffusion models. We use our framework to create COCO-Counterfactuals, a multimodal counterfactual dataset of paired image and text captions based on the MS-COCO dataset. We validate the quality of COCO-Counterfactuals through human evaluations and show that existing multimodal models are challenged by our counterfactual image-text pairs. Additionally, we demonstrate the usefulness of COCO-Counterfactuals for improving out-of-domain generalization of multimodal vision-language models via training data augmentation.
arxiv情報
著者 | Tiep Le,Vasudev Lal,Phillip Howard |
発行日 | 2023-10-31 15:41:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google