要約
オープンドメイン質問応答 (ODQA) では、既存の質問のほとんどは常識に基づいたシングルホップ推論を必要とします。
このタスクをさらに拡張するために、オープン ドメイン設定で明示的な推論ステップでマルチホップの質問に答えることにより、オープン ドメイン マルチホップ推論 (ODMR) を正式に導入します。
最近、大規模言語モデル (LLM) は、外部コーパスなしで ODQA を容易にする上で重要な有用性を発見しました。
さらに、思考連鎖 (CoT) プロンプトは、手動または自動パラダイムを使用して LLM の推論能力を大幅に向上させます。
ただし、既存の自動化された方法には品質保証が欠けており、手動のアプローチにはスケーラビリティの制限と多様性の乏しさがあり、LLM の機能が妨げられます。
この論文では、LLM による、LLM のための LLM の高品質 CoT を量産するための自動化フレームワークである、自発的思考連鎖 (SP-CoT) を提案します。
SP-CoT は、高品質 ODMR データセットの自動生成パイプライン、インコンテキスト CoT 選択およびインコンテキスト学習による自発的推論のための適応サンプラーを導入します。
4 つのマルチホップ質問応答ベンチマークに関する広範な実験により、私たちが提案する SP-CoT が大規模 (175B) LLM での以前の SOTA 手法を大幅に上回るだけでなく、小規模 (13B) のゼロショット パフォーマンスのほぼ 2 倍であることが示されました。
) LLM。
さらなる分析により、MuSiQue-Ans データセット上の中間回答の $\sim$50\% を呼び出すことで、直接的かつ簡潔な中間推論ステップを引き出す SP-CoT の驚くべき能力が明らかになりました。
要約(オリジナル)
In open-domain question-answering (ODQA), most existing questions require single-hop reasoning on commonsense. To further extend this task, we officially introduce open-domain multi-hop reasoning (ODMR) by answering multi-hop questions with explicit reasoning steps in open-domain setting. Recently, large language models (LLMs) have found significant utility in facilitating ODQA without external corpus. Furthermore, chain-of-thought (CoT) prompting boosts the reasoning capability of LLMs to a greater extent with manual or automated paradigms. However, existing automated methods lack of quality assurance, while manual approaches suffer from limited scalability and poor diversity, hindering the capabilities of LLMs. In this paper, we propose Self-prompted Chain-of-Thought (SP-CoT), an automated framework to mass-produce high quality CoTs of LLMs, by LLMs and for LLMs. SP-CoT introduces an automated generation pipeline of high quality ODMR datasets, an adaptive sampler for in-context CoT selection and self-prompted inference via in-context learning. Extensive experiments on four multi-hop question-answering benchmarks show that our proposed SP-CoT not only significantly surpasses the previous SOTA methods on large-scale (175B) LLMs, but also nearly doubles the zero-shot performance of small-scale (13B) LLMs. Further analysis reveals the remarkable capability of SP-CoT to elicit direct and concise intermediate reasoning steps by recalling $\sim$50\% of intermediate answers on MuSiQue-Ans dataset.
arxiv情報
著者 | Jinyuan Wang,Junlong Li,Hai Zhao |
発行日 | 2023-10-20 14:51:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google