FiCo-ITR: bridging fine-grained and coarse-grained image-text retrieval for comparative performance analysis


画像テキスト検索 (ITR) の分野では、最近の進歩により、大規模なビジョン言語事前トレーニング (VLP) がファイングレイン (FG) インスタンスレベルの検索に利用され、計算の複雑さの増加を犠牲にして高精度が達成されています。
粗粒度 (CG) カテゴリ レベルの検索では、検索パフォーマンスを犠牲にしてでも、クロスモーダル ハッシュ (CMH) を使用して効率を優先する著名なアプローチが採用されています。
方法論の違いにより、FG モデルと CG モデルが文献の評価内で直接比較されることはほとんどなく、その結果、2 つの間の検索パフォーマンスと効率のトレードオフを定量化する経験的データが不足しています。
このペーパーでは、\texttt{FiCo-ITR} ライブラリを導入することでこのギャップに対処します。このライブラリは、FG モデルと CG モデルの両方の評価方法を標準化し、直接比較を容易にします。
私たちは両方のサブフィールドの代表的なモデルの経験的評価を実施し、さまざまなデータ スケールにわたって精度、再現率、計算の複雑さを分析します。
私たちの調査結果は、最近の代表的な FG モデルと CG モデルの間のパフォーマンスと効率のトレードオフに関する新たな洞察を提供し、それぞれの強みと限界を明らかにしています。
これらの発見は、特定の検索タスクのモデル選択に関して、より情報に基づいた意思決定を行うために必要な基盤を提供し、FG アプローチと CG アプローチの両方の強みを活用するハイブリッド システムの将来の研究への道を強調します。


In the field of Image-Text Retrieval (ITR), recent advancements have leveraged large-scale Vision-Language Pretraining (VLP) for Fine-Grained (FG) instance-level retrieval, achieving high accuracy at the cost of increased computational complexity. For Coarse-Grained (CG) category-level retrieval, prominent approaches employ Cross-Modal Hashing (CMH) to prioritise efficiency, albeit at the cost of retrieval performance. Due to differences in methodologies, FG and CG models are rarely compared directly within evaluations in the literature, resulting in a lack of empirical data quantifying the retrieval performance-efficiency tradeoffs between the two. This paper addresses this gap by introducing the \texttt{FiCo-ITR} library, which standardises evaluation methodologies for both FG and CG models, facilitating direct comparisons. We conduct empirical evaluations of representative models from both subfields, analysing precision, recall, and computational complexity across varying data scales. Our findings offer new insights into the performance-efficiency trade-offs between recent representative FG and CG models, highlighting their respective strengths and limitations. These findings provide the foundation necessary to make more informed decisions regarding model selection for specific retrieval tasks and highlight avenues for future research into hybrid systems that leverage the strengths of both FG and CG approaches.


著者 Mikel Williams-Lekuona,Georgina Cosma
発行日 2024-07-29 15:44:22+00:00
カテゴリー: cs.AI, cs.CV, cs.IR パーマリンク