Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model

要約

【タイトル】
– 情報検索モジュールが弱点、リトリーバーとランゲージモデルの間に起こるバグについての検討

【要約】
– 文章検索モジュールを使用したランゲージモデルは、インタプリタブルな方法で、言語モデリングや質問応答などの一般的なNLP問題を解決するのに有効であることが示されています。
– この論文は、異なるタスクで検索された文の推論において、異なるリトリーバーで拡張された言語モデル(REALM、kNN-LM、FiD結合DPR、ATLASとFlan-T5結合Contriever)の強みと弱点を研究します。
– 我々は、リトリーバーが用いる類似性メトリックが一般的に推論タスクに不十分であることを実験的に示しました。また、リトリーバー拡張モデルで用いられる言語モデルが文の複雑な関係を考慮していないことが、膨大なパラメータ数を持つ大規模モデルでも推論パフォーマンスが低下する原因であることも明らかにしました。
– さらに、多段情報検索を行った大規模言語モデルの推論パフォーマンスを分析しましたが、わずかな改善しか見られませんでした。
– これらの結果から、情報検索モジュールやリトリーバーと言語モデルの相互作用によるバグが存在し、この領域でのさらなる研究の余地があることが示されています。

要約(オリジナル)

Augmenting pretrained language models with retrievers to select the supporting documents has shown promise in effectively solving common NLP problems, including language modeling and question answering, in an interpretable way. In this paper, we first study the strengths and weaknesses of different retriever-augmented language models (REALM, $k$NN-LM, FiD coupled with DPR, and ATLAS and Flan-T5 coupled with Contriever) in reasoning over the retrieved statements in different tasks. We show how the retrieve-then-read models’ limitations in reasoning are rooted both in the retriever module as well as the language model. Our experimental results demonstrate that the similarity metric used by the retrievers is generally insufficient for reasoning tasks. Additionally, we show that the language models in retriever-augmented models do not take the complicated relations between the statements into account, which leads to poor reasoning performance even when using the larger models. Moreover, we analyze the reasoning performance of large language models using multihop retrieval but we only observe minor improvements. Overall, this shows great room for further research in this area.

arxiv情報

著者 Parishad BehnamGhader,Santiago Miret,Siva Reddy
発行日 2023-05-07 02:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク