Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking

要約

対照学習は、手動による注釈の要件が最小限であるため、検索タスクに広く採用されています。
ただし、一般的な対照的なフレームワークは通常、バイナリの関連性から学習するため、詳細なランキングを直接組み込むのは効果的ではありません。
このペーパーでは、今後の調​​査と評価を容易にするために、各クエリとドキュメントのペアの詳細な関連性スコアを特徴とする大規模なデータセットを厳選します。
続いて、マルチモーダル検索とランキング (GCL) のための一般化対照学習を提案します。これは、バイナリ関連性スコアを超えたきめ細かいランキングから学習するように設計されています。
私たちの結果は、GCL がドメイン内で NDCG@10 の 94.5% 増加、コールドスタート評価で 26.3 ~ 48.8% の増加を達成していることを示しています。これらはすべて CLIP ベースラインと比較しており、グラウンド トゥルース ランキングに関係しています。

要約(オリジナル)

Contrastive learning has gained widespread adoption for retrieval tasks due to its minimal requirement for manual annotations. However, popular contrastive frameworks typically learn from binary relevance, making them ineffective at incorporating direct fine-grained rankings. In this paper, we curate a large-scale dataset featuring detailed relevance scores for each query-document pair to facilitate future research and evaluation. Subsequently, we propose Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking (GCL), which is designed to learn from fine-grained rankings beyond binary relevance scores. Our results show that GCL achieves a 94.5% increase in NDCG@10 for in-domain and 26.3 to 48.8% increases for cold-start evaluations, all relative to the CLIP baseline and involving ground truth rankings.

arxiv情報

著者 Tianyu Zhu,Myong Chol Jung,Jesse Clark
発行日 2024-04-12 15:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.LG パーマリンク