Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions

要約

プロンプトベースの大規模言語モデル (LLM) は、複数ステップの質問応答 (QA) のための自然言語推論ステップまたは思考連鎖 (CoT) の生成において驚くほど強力です。
ただし、必要な知識が LLM で利用できない場合、または LLM のパラメータ内で最新でない場合は、問題が発生します。
質問を使用して外部知識ソースから関連テキストを取得することは LLM に役立ちますが、この 1 ステップの取得して読み取るアプローチは、複数ステップの QA には不十分であることがわかりました。
ここで、\textit{何を取得するか} は \textit{既に取得されているもの} に依存し、さらに \textit{以前に取得されたもの} に依存する可能性があります。
これに対処するために、我々は、CoT 内のステップ (文) で検索をインターリーブし、CoT で検索をガイドし、次に検索結果を使用して CoT を改善するマルチステップ QA の新しいアプローチである IRCoT を提案します。
GPT3 で IRCoT を使用すると、HotpotQA、2WikiMultihopQA、MuSiQue、IIRC の 4 つのデータセットでの検索 (最大 21 ポイント) およびダウンストリーム QA (最大 15 ポイント) が大幅に向上します。
追加のトレーニングなしで、Flan-T5-large などのはるかに小さいモデルだけでなく、分布外 (OOD) 設定でも同様の大幅なゲインが観察されます。
IRCoT はモデルの幻覚を軽減し、実際にはより正確な CoT 推論を実現します。
コード、データ、プロンプトは \url{https://github.com/stonybrooknlp/ircot} で入手できます。

要約(オリジナル)

Prompting-based large language models (LLMs) are surprisingly powerful at generating natural language reasoning steps or Chains-of-Thoughts (CoT) for multi-step question answering (QA). They struggle, however, when the necessary knowledge is either unavailable to the LLM or not up-to-date within its parameters. While using the question to retrieve relevant text from an external knowledge source helps LLMs, we observe that this one-step retrieve-and-read approach is insufficient for multi-step QA. Here, \textit{what to retrieve} depends on \textit{what has already been derived}, which in turn may depend on \textit{what was previously retrieved}. To address this, we propose IRCoT, a new approach for multi-step QA that interleaves retrieval with steps (sentences) in a CoT, guiding the retrieval with CoT and in turn using retrieved results to improve CoT. Using IRCoT with GPT3 substantially improves retrieval (up to 21 points) as well as downstream QA (up to 15 points) on four datasets: HotpotQA, 2WikiMultihopQA, MuSiQue, and IIRC. We observe similar substantial gains in out-of-distribution (OOD) settings as well as with much smaller models such as Flan-T5-large without additional training. IRCoT reduces model hallucination, resulting in factually more accurate CoT reasoning. Code, data, and prompts are available at \url{https://github.com/stonybrooknlp/ircot}

arxiv情報

著者 Harsh Trivedi,Niranjan Balasubramanian,Tushar Khot,Ashish Sabharwal
発行日 2023-06-23 00:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク