RAR-b: Reasoning as Retrieval Benchmark

要約

意味的テキスト類似性 (STS) タスクと情報検索タスク (IR) タスクは、過去数年間の埋め込みモデルの進捗を記録する 2 つの主要な手段でした。
新たな検索拡張生成 (RAG) パラダイムの下では、埋め込みモデルの次のレベルの言語理解能力を評価し、埋め込みモデルに保存されている推論能力を意識的に調べる必要があると考えられます。
これに対処して、私たちは「レトリバーは推論の問題を解決できるでしょうか?」という質問を投げかけます。
推論タスクを検索タスクに変換することで、推論レベルの言語理解について特別に訓練されていない限り、現在の最先端の検索モデルは、特に推論において LLM を支援する役割を果たすにはまだ程遠い可能性があることがわかりました。
集中的なタスク。
さらに、命令を認識するように訓練されているにもかかわらず、命令認識型 IR モデルは推論タスクの推論時間に命令がないほうがよいことが多く、研究コミュニティが調整すべきレトリバーと LLM の行動のギャップが見落とされています。
しかし、最近のデコーダベースの埋め込みモデルは、ギャップを縮める上で大きな期待を示しており、埋め込みモデルが推論レベルの言語理解を達成するための道筋を浮き彫りにしています。
また、現在の既製のリランカー モデルはこれらのタスクでは失敗しますが、微調整を通じて推論能力をモデルに注入することは、バイエンコーダーに注入するよりも簡単であるように見え、状態を達成できることも示します。
-再ランキングモデルを微調整することにより、すべてのタスクにわたって最高のパフォーマンスを実現します。
レトリーバー モデルに保存されている推論能力を評価するためのタスクと設定の総合的なスイートである、Reasoning as Retrieval Benchmark (RAR-b) をリリースします。
RAR-b は https://github.com/gowitheflow-1998/RAR-b で入手できます。

要約(オリジナル)

Semantic textual similartiy (STS) and information retrieval tasks (IR) tasks have been the two major avenues to record the progress of embedding models in the past few years. Under the emerging Retrieval-augmented Generation (RAG) paradigm, we envision the need to evaluate next-level language understanding abilities of embedding models, and take a conscious look at the reasoning abilities stored in them. Addressing this, we pose the question: Can retrievers solve reasoning problems? By transforming reasoning tasks into retrieval tasks, we find that without specifically trained for reasoning-level language understanding, current state-of-the-art retriever models may still be far from being competent for playing the role of assisting LLMs, especially in reasoning-intensive tasks. Moreover, albeit trained to be aware of instructions, instruction-aware IR models are often better off without instructions in inference time for reasoning tasks, posing an overlooked retriever-LLM behavioral gap for the research community to align. However, recent decoder-based embedding models show great promise in narrowing the gap, highlighting the pathway for embedding models to achieve reasoning-level language understanding. We also show that, although current off-the-shelf re-ranker models fail on these tasks, injecting reasoning abilities into them through fine-tuning still appears easier than doing so to bi-encoders, and we are able to achieve state-of-the-art performance across all tasks by fine-tuning a reranking model. We release Reasoning as Retrieval Benchmark (RAR-b), a holistic suite of tasks and settings to evaluate the reasoning abilities stored in retriever models. RAR-b is available at https://github.com/gowitheflow-1998/RAR-b.

arxiv情報

著者 Chenghao Xiao,G Thomas Hudson,Noura Al Moubayed
発行日 2024-04-09 14:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク