要約
タイトル:クロスモーダル検索における誤った相関の発見と軽減
要約:
– クロスモーダル検索法は、クエリ画像に最も適したテキストとその逆を検索するための優れたツールであり、使用されることが多い。
– しかし、画像とテキストの検索モデルでは、トレーニングデータの誤った相関を記憶し、実際の画像の予測理由を見る代わりに、結果としてクエリ画像には存在しないオブジェクトまで言及する文章が取り出されることがある。
– 本研究では、モデルのトレーニングで誤った相関を考慮したオブジェクトの相関を測定する「ODmAP@k」というオブジェクト装飾メトリックを紹介している。
– 画像とテキストの自動操作を用いて、指定されたテストデータ内にオブジェクトの相関が存在するかどうかを制御する。
– さらに、データ合成技術を使用して、トレーニングデータにおける意味的に関連のないオブジェクトの誤った相関によるモデルの偏見に対処している。
– 提案されたパイプラインを、注意深く設計された合成データ上で画像とテキストの検索フレームワークのファインチューニングに適用し、3つの最新のモデルに対して実験を行った。
– 結果、3つのモデルの標準的な検索パフォーマンスと、オブジェクトの相関の分類指標の両方において、大幅な改善が見られた。
– コードはhttps://github.com/ExplainableML/Spurious_CM_Retrievalで入手可能。
要約(オリジナル)
Cross-modal retrieval methods are the preferred tool to search databases for the text that best matches a query image and vice versa. However, image-text retrieval models commonly learn to memorize spurious correlations in the training data, such as frequent object co-occurrence, instead of looking at the actual underlying reasons for the prediction in the image. For image-text retrieval, this manifests in retrieved sentences that mention objects that are not present in the query image. In this work, we introduce ODmAP@k, an object decorrelation metric that measures a model’s robustness to spurious correlations in the training data. We use automatic image and text manipulations to control the presence of such object correlations in designated test data. Additionally, our data synthesis technique is used to tackle model biases due to spurious correlations of semantically unrelated objects in the training data. We apply our proposed pipeline, which involves the finetuning of image-text retrieval frameworks on carefully designed synthetic data, to three state-of-the-art models for image-text retrieval. This results in significant improvements for all three models, both in terms of the standard retrieval performance and in terms of our object decorrelation metric. The code is available at https://github.com/ExplainableML/Spurious_CM_Retrieval.
arxiv情報
著者 | Jae Myung Kim,A. Sophia Koepke,Cordelia Schmid,Zeynep Akata |
発行日 | 2023-04-06 21:45:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI