Towards Cross-modal Backward-compatible Representation Learning for Vision-Language Models

要約

最新の検索システムは、古いモデルと新しいモデルの間の埋め込みに互換性がないため、新しいより強力なモデルへのアップグレードに苦労することがよくあります。
これには、大量のデータ サンプルの埋め込みを再計算するバックフィルと呼ばれるコストのかかるプロセスが必要になります。
ビジョンでは、新しいモデルが古いモデルの埋め込みと確実に一致するように、下位互換性トレーニング (BT) が提案されています。
この論文は、ビジョンオンリー BT の概念をクロスモーダル検索の分野に拡張し、クロスモーダル BT (XBT) に対処する最初の試みを示しています。
私たちの目標は、クロスモーダル検索タスクにおいて、CLIP などの視覚言語事前トレーニング (VLP) モデル間の下位互換性を実現することです。
XBT の課題に対処するために、新しいモデルのエンベディングを古いモデルのエンベディングにマッピングする投影モジュールという効率的なソリューションを提案します。
このモジュールはテキスト データのみで事前トレーニングされているため、XBT 学習に必要な画像とテキストのペアの数が大幅に削減され、事前トレーニングが完了すると、トレーニング中に古いモデルを使用することがなくなります。
さらに、パラメータ効率の高いトレーニング戦略を利用して、効率を向上させ、変更を避けることで既製の新しいモデルの知識を保存します。
クロスモーダル検索データセットに関する実験結果は、XBT の有効性と、新しい VLP モデルが出現したときにバックフィル不要のアップグレードを可能にする可能性を示しています。

要約(オリジナル)

Modern retrieval systems often struggle with upgrading to new and more powerful models due to the incompatibility of embeddings between the old and new models. This necessitates a costly process known as backfilling, which involves re-computing the embeddings for a large number of data samples. In vision, Backward-compatible Training (BT) has been proposed to ensure that the new model aligns with the old model’s embeddings. This paper extends the concept of vision-only BT to the field of cross-modal retrieval, marking the first attempt to address Cross-modal BT (XBT). Our goal is to achieve backward-compatibility between Vision-Language Pretraining (VLP) models, such as CLIP, for the cross-modal retrieval task. To address XBT challenges, we propose an efficient solution: a projection module that maps the new model’s embeddings to those of the old model. This module, pretrained solely with text data, significantly reduces the number of image-text pairs required for XBT learning, and, once it is pretrained, it avoids using the old model during training. Furthermore, we utilize parameter-efficient training strategies that improve efficiency and preserve the off-the-shelf new model’s knowledge by avoiding any modifications. Experimental results on cross-modal retrieval datasets demonstrate the effectiveness of XBT and its potential to enable backfill-free upgrades when a new VLP model emerges.

arxiv情報

著者 Young Kyun Jang,Ser-nam Lim
発行日 2024-05-23 15:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク