要約
テキストから画像への検索は、テキスト クエリを使用した画像の検索を可能にすることで、デジタル ライブラリ、電子商取引プラットフォーム、マルチメディア データベースなどのさまざまなアプリケーションにわたって重要な役割を果たします。
最先端のパフォーマンスを提供するマルチモーダル大規模言語モデル (MLLM) の進歩にも関わらず、大規模で多様で曖昧な検索シナリオへの適用性は、大量の計算要求と単射的埋め込みの生成によって制限されます。
このペーパーでは、大規模なデータセット内の広範なテキスト記述に対応する画像を効率的かつ堅牢に検索するために調整された Text2Pic Swift フレームワークを紹介します。
このフレームワークは 2 層のアプローチを採用しています。最初のエンティティベースのランキング (ER) ステージでは、複数のターゲットに対する複数のクエリの戦略を通じて、長いテキスト クエリに固有のあいまいさに対処し、その後の分析の潜在的な候補を効果的に絞り込みます。
これに続いて、概要ベースの再ランキング (SR) ステージで、簡潔なクエリの概要に基づいてこれらの選択をさらに絞り込みます。
さらに、あいまいなクエリの課題に取り組み、検索プロセスの両方の段階を促進するように特別に設計された新しい Decoupling-BEiT-3 エンコーダを紹介します。これにより、ベクトルベースの類似性評価によって計算効率が大幅に向上します。
AToMiC データセットに対して行われた私たちの評価では、Text2Pic Swift が Recall@1000 で最大 11.06% の増加を達成し、トレーニング時間と検索時間のそれぞれ 68.75% と 99.79% の短縮を達成し、現在の MLLM よりも優れていることが実証されました。
要約(オリジナル)
Text-to-image retrieval plays a crucial role across various applications, including digital libraries, e-commerce platforms, and multimedia databases, by enabling the search for images using text queries. Despite the advancements in Multimodal Large Language Models (MLLMs), which offer leading-edge performance, their applicability in large-scale, varied, and ambiguous retrieval scenarios is constrained by significant computational demands and the generation of injective embeddings. This paper introduces the Text2Pic Swift framework, tailored for efficient and robust retrieval of images corresponding to extensive textual descriptions in sizable datasets. The framework employs a two-tier approach: the initial Entity-based Ranking (ER) stage addresses the ambiguity inherent in lengthy text queries through a multiple-queries-to-multiple-targets strategy, effectively narrowing down potential candidates for subsequent analysis. Following this, the Summary-based Re-ranking (SR) stage further refines these selections based on concise query summaries. Additionally, we present a novel Decoupling-BEiT-3 encoder, specifically designed to tackle the challenges of ambiguous queries and to facilitate both stages of the retrieval process, thereby significantly improving computational efficiency via vector-based similarity assessments. Our evaluation, conducted on the AToMiC dataset, demonstrates that Text2Pic Swift outperforms current MLLMs by achieving up to an 11.06% increase in Recall@1000, alongside reductions in training and retrieval durations by 68.75% and 99.79%, respectively.
arxiv情報
著者 | Zijun Long,Xuri Ge,Richard Mccreadie,Joemon Jose |
発行日 | 2024-02-23 11:47:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google