Is Cross-modal Information Retrieval Possible without Training?

要約

【タイトル】訓練なしでクロスモーダル情報検索が可能か?

【要約】

– 非常に深い学習モデルによってエンコードされた表現は、情報検索に有益な豊富な機能を提供する。
– 特定のデータモダリティの埋め込みは、高次元空間を占有するが、単純なマッピングにより別の空間にマッピングができる。
– 本論文では、最小二乗法と特異値分解(SVD)によって計算されたシンプルなマッピングを受け入れ、プロクルステスの問題の解として、クロスモーダル情報検索の手段として機能させる。
– これにより、テキストなどの一つのモダリティの情報が与えられた場合、マッピングは別の画像などのモダリティの意味的に等しいデータ項目を位置付けるのに役立つ。
– 本研究では、最小二乗法と特異値分解 (SVD) によって計算されたシンプルなクロスモーダルマッピングを使用して、テキストから画像へ、画像からテキストへの検索タスクを実験した。
– エンコードされた埋め込みと深い学習モデルのオフ・ザ・シェルフを使用することで、シンプルなマッピングもしくはコストのかかる深層ニューラルネットワークトレーニングやファインチューニングを必要とする方法よりも妥当な精度を達成した。
– プレトレーニングモデルの対比学習を使用してシンプルなマッピングを改善した。対比学習は、プレトレーニングされたエンコーダーを適切にバイアスすることでクロスモーダルマッピングの品質を向上させることができます。
– 簡単なニューラルアーキテクチャーであるマルチレイヤーパーセプトロン(gMLP)を使用して、パフォーマンスをさらに上げた。

要約(オリジナル)

Encoded representations from a pretrained deep learning model (e.g., BERT text embeddings, penultimate CNN layer activations of an image) convey a rich set of features beneficial for information retrieval. Embeddings for a particular modality of data occupy a high-dimensional space of its own, but it can be semantically aligned to another by a simple mapping without training a deep neural net. In this paper, we take a simple mapping computed from the least squares and singular value decomposition (SVD) for a solution to the Procrustes problem to serve a means to cross-modal information retrieval. That is, given information in one modality such as text, the mapping helps us locate a semantically equivalent data item in another modality such as image. Using off-the-shelf pretrained deep learning models, we have experimented the aforementioned simple cross-modal mappings in tasks of text-to-image and image-to-text retrieval. Despite simplicity, our mappings perform reasonably well reaching the highest accuracy of 77% on recall@10, which is comparable to those requiring costly neural net training and fine-tuning. We have improved the simple mappings by contrastive learning on the pretrained models. Contrastive learning can be thought as properly biasing the pretrained encoders to enhance the cross-modal mapping quality. We have further improved the performance by multilayer perceptron with gating (gMLP), a simple neural architecture.

arxiv情報

著者 Hyunjin Choi,Hyunjae Lee,Seongho Joe,Youngjune L. Gwon
発行日 2023-04-20 02:36:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.LG パーマリンク