LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Retrieval

要約

画像テキスト検索(Image-text retrieval: ITR)は、他のモダリティからのクエリが与えられたときに、関連する画像やテキストを検索するタスクである。従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度な表現に符号化することに依存しているが、大規模な検索シナリオでは検索速度が低いという課題に直面している。本研究では、語彙重み付けパラダイムを提案する。語彙空間における疎な表現を画像やテキストに対して学習し、Bag-of-Wordsモデルや効率的な転置インデックスを利用することにより、検索遅延の大幅な短縮を実現するものである。しかし、画像データは連続的であるため、疎な語彙空間表現が必要であるという決定的なギャップが生じる。このギャップを埋めるために、重要度を考慮した語彙表現を学習する新しい事前学習フレームワーク、LexLIP(Lexicon-Bottlenecked Language-Image Pre-Training)を導入する。このフレームワークは、デュアルストリームエンコーダと弱化テキストデコーダの間に語彙ボトルネックモジュールを持ち、語彙の重要度分布を学習するための連続的なバッグオブワーズのボトルネックを構築することが可能である。同規模のデータで事前学習を行ったところ、我々のLexLIPは2つのベンチマークITRデータセット、MSCOCOとFlickr30kにおいて、最先端の性能を達成した。さらに、大規模な検索シナリオにおいて、LexLIPは検索速度を5.5〜221.3倍、インデックス記憶メモリを13.2〜48.8倍削減し、CLIPを凌駕する性能を示した。

要約(オリジナル)

Image-text retrieval (ITR) is a task to retrieve the relevant images/texts, given the query from another modality. The conventional dense retrieval paradigm relies on encoding images and texts into dense representations using dual-stream encoders, however, it faces challenges with low retrieval speed in large-scale retrieval scenarios. In this work, we propose the lexicon-weighting paradigm, where sparse representations in vocabulary space are learned for images and texts to take advantage of the bag-of-words models and efficient inverted indexes, resulting in significantly reduced retrieval latency. A crucial gap arises from the continuous nature of image data, and the requirement for a sparse vocabulary space representation. To bridge this gap, we introduce a novel pre-training framework, Lexicon-Bottlenecked Language-Image Pre-Training (LexLIP), that learns importance-aware lexicon representations. This framework features lexicon-bottlenecked modules between the dual-stream encoders and weakened text decoders, allowing for constructing continuous bag-of-words bottlenecks to learn lexicon-importance distributions. Upon pre-training with same-scale data, our LexLIP achieves state-of-the-art performance on two benchmark ITR datasets, MSCOCO and Flickr30k. Furthermore, in large-scale retrieval scenarios, LexLIP outperforms CLIP with a 5.5 ~ 221.3X faster retrieval speed and 13.2 ~ 48.8X less index storage memory.

arxiv情報

著者 Ziyang luo,Pu Zhao,Can Xu,Xiubo Geng,Tao Shen,Chongyang Tao,Jing Ma,Qingwen lin,Daxin Jiang
発行日 2023-02-06 16:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.IR パーマリンク