I3: Intent-Introspective Retrieval Conditioned on Instructions

要約

最近の研究によると、異なる検索タスクには個別の検索意図が伴うことが多いため、高密度検索モデルは、専用のトレーニング データが欠如しているさまざまな検索タスクで適切に実行するのが難しいことがわかっています。
この課題に対処するために、この作業では、命令を活用して検索意図を柔軟に記述し、タスク固有のトレーニングなしで命令に基づいて、さまざまなタスクにわたってインテントイントロスペクティブ検索を実行する統合検索システムである I3 を導入しました。
I3 は、入力クエリと命令を共同で推論することで特定の取得意図を理解するために、パラメータ分離された方法でプラグイン可能なイントロスペクターを革新的に組み込み、イントロスペクトされた意図を元の取得モデルにシームレスに統合して、意図を認識した取得を実現します。
さらに、段階的に枝刈りされた意図学習を提案します。
これは、LLM で生成された広範なデータを利用して I3 をフェーズごとにトレーニングし、プログレッシブ構造プルーニングと欠点外挿ベースのデータ改良という 2 つの主要な設計を具体化します。
広範な実験により、BEIR ベンチマークでは、I3 がタスク固有のレトリーバーで設計されたベースライン手法を大幅に上回り、タスク固有の調整を行わずに最先端のゼロショット パフォーマンスを達成できることが示されています。

要約(オリジナル)

Recent studies indicate that dense retrieval models struggle to perform well on a wide variety of retrieval tasks that lack dedicated training data, as different retrieval tasks often entail distinct search intents. To address this challenge, in this work we leverage instructions to flexibly describe retrieval intents and introduce I3, a unified retrieval system that performs Intent-Introspective retrieval across various tasks, conditioned on Instructions without any task-specific training. I3 innovatively incorporates a pluggable introspector in a parameter-isolated manner to comprehend specific retrieval intents by jointly reasoning over the input query and instruction, and seamlessly integrates the introspected intent into the original retrieval model for intent-aware retrieval. Furthermore, we propose progressively-pruned intent learning. It utilizes extensive LLM-generated data to train I3 phase-by-phase, embodying two key designs: progressive structure pruning and drawback extrapolation-based data refinement. Extensive experiments show that in the BEIR benchmark, I3 significantly outperforms baseline methods designed with task-specific retrievers, achieving state-of-the-art zero-shot performance without any task-specific tuning.

arxiv情報

著者 Kaihang Pan,Juncheng Li,Wenjie Wang,Hao Fei,Hongye Song,Wei Ji,Jun Lin,Xiaozhong Liu,Tat-Seng Chua,Siliang Tang
発行日 2024-04-25 15:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク