要約
大規模言語モデル (LLM) の最近の進歩により、さまざまな自然言語処理タスクが大幅に改善されましたが、推論計画における LLM の非効率性と幻覚の問題により、LLM が知識集約型の複雑な質問応答を実行することは依然として困難です。
典型的な解決策は、検索拡張生成 (RAG) と思考連鎖 (CoT) 推論を組み合わせて使用することです。これにより、複雑な質問が連鎖状のサブ質問に分解され、各サブ質問で反復 RAG が適用されます。
しかし、従来の研究では推論計画が最適とは言えず、異種ソースからの動的な知識の検索が見落とされていました。
この論文では、原子レベルでマルチソース推論を実行する新しい異種知識推論フレームワークである AtomR を提案します。
知識のグラフ モデリングからインスピレーションを得た AtomR は、大規模言語モデル (LLM) を活用して、複雑な質問を 3 つのアトミックな知識演算子の組み合わせに分解し、計画と実行の両方の段階で推論プロセスを大幅に強化します。
また、複雑な異種知識推論を評価するために調整された新しい評価ベンチマークである BlendQA も紹介します。
実験の結果、AtomR は 3 つの単一ソース推論ベンチマークと 2 つのマルチソース推論ベンチマークにわたって最先端のベースラインを大幅に上回り、2WikiMultihop で 9.4%、BlendQA で 9.5% という顕著なパフォーマンス向上を示したことが示されています。
要約(オリジナル)
Recent advancements in large language models (LLMs) have led to significant improvements in various natural language processing tasks, but it is still challenging for LLMs to perform knowledge-intensive complex question answering due to LLMs’ inefficacy in reasoning planning and the hallucination problem. A typical solution is to employ retrieval-augmented generation (RAG) coupled with chain-of-thought (CoT) reasoning, which decomposes complex questions into chain-like sub-questions and applies iterative RAG at each sub-question. However, prior works exhibit sub-optimal reasoning planning and overlook dynamic knowledge retrieval from heterogeneous sources. In this paper, we propose AtomR, a novel heterogeneous knowledge reasoning framework that conducts multi-source reasoning at the atomic level. Drawing inspiration from the graph modeling of knowledge, AtomR leverages large language models (LLMs) to decompose complex questions into combinations of three atomic knowledge operators, significantly enhancing the reasoning process at both the planning and execution stages. We also introduce BlendQA, a novel evaluation benchmark tailored to assess complex heterogeneous knowledge reasoning. Experiments show that AtomR significantly outperforms state-of-the-art baselines across three single-source and two multi-source reasoning benchmarks, with notable performance gains of 9.4% on 2WikiMultihop and 9.5% on BlendQA.
arxiv情報
著者 | Amy Xin,Jinxin Liu,Zijun Yao,Zhicheng Li,Shulin Cao,Lei Hou,Juanzi Li |
発行日 | 2024-11-25 15:35:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google