Cross-Modal Coordination Across a Diverse Set of Input Modalities

要約

クロスモーダル検索は、別のクエリを使用して特定のモダリティのサンプルを取得するタスクです。
実際の応用範囲が広いため、この問題は主に視覚と言語のケースに焦点が当てられています。
テキストから画像への検索では、CLIP のようなモデルがそのようなタスクの解決に効果的であることが証明されています。
このような調整された表現を学習するための主なアプローチは、一致するビューが近くに留まり、一致しないペアからのビューが互いに遠ざける共通の空間にそれらを投影することで構成されます。
このクロスモーダル調整は他のペアごとの組み合わせにも適用されていますが、それを任意の数の多様なモダリティに拡張することは、文献で十分に検討されていない問題です。
このホワイトペーパーでは、この問題に対する 2 つの異なるアプローチを提案します。
1 つ目は、CLIP 対比目標を任意の数の入力モダリティに拡張することに基づいていますが、2 つ目は対比定式化から離れ、2 つの単純で直観的な制約を反映するターゲットに向けてクロスモーダルの類似性を回帰することによって調整問題に取り組みます。
クロスモーダル検索タスクの。
2 つの異なるデータセットに対して、入力モダリティの異なる組み合わせで実験を実行し、このアプローチがシンプルかつ効果的であるだけでなく、新しい方法で検索問題に取り組むことも可能であることを示します。
より多様なペアワイズインタラクションのセットをキャプチャすることに加えて、2 つ以上のそのようなモダリティからの埋め込みを組み合わせることで、学習された表現を使用して検索パフォーマンスを向上できることを示します。

要約(オリジナル)

Cross-modal retrieval is the task of retrieving samples of a given modality by using queries of a different one. Due to the wide range of practical applications, the problem has been mainly focused on the vision and language case, e.g. text to image retrieval, where models like CLIP have proven effective in solving such tasks. The dominant approach to learning such coordinated representations consists of projecting them onto a common space where matching views stay close and those from non-matching pairs are pushed away from each other. Although this cross-modal coordination has been applied also to other pairwise combinations, extending it to an arbitrary number of diverse modalities is a problem that has not been fully explored in the literature. In this paper, we propose two different approaches to the problem. The first is based on an extension of the CLIP contrastive objective to an arbitrary number of input modalities, while the second departs from the contrastive formulation and tackles the coordination problem by regressing the cross-modal similarities towards a target that reflects two simple and intuitive constraints of the cross-modal retrieval task. We run experiments on two different datasets, over different combinations of input modalities and show that the approach is not only simple and effective but also allows for tackling the retrieval problem in novel ways. Besides capturing a more diverse set of pair-wise interactions, we show that we can use the learned representations to improve retrieval performance by combining the embeddings from two or more such modalities.

arxiv情報

著者 Jorge Sánchez,Rodrigo Laguna
発行日 2024-01-29 17:53:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM パーマリンク