要約
このホワイトペーパーでは、多様で包括的な回答を生成する際の(検索)大規模な言語モデル(LLM)の制限を研究し、2フェーズシステム設計に基づいて計画と反復(P&R)フレームワークを紹介します。
グローバル探査段階では、P&Rは、特定の説明を持つ各プランが多様なクエリの側面のリストで構成されている、特定の入力の多様な計画セットを生成します。
このフェーズの後には、各プランに条件付けられた入力クエリの応答提案を生成し、提案の品質を改善するための提案を繰り返し改善するローカル搾取フェーズが続きます。
最後に、報酬モデルが採用され、最高の事実と報道を伴う提案を選択します。
ICAT評価方法論に基づいて実験を実施します。これは、回答の事実と包括性評価のための最近のアプローチです。
非ファクトル質問の回答とTREC検索結果の多様化タスクから採用された2つの多様な情報探索ベンチマークの実験は、P&Rがベースラインを大幅に上回り、アンティークデータセットの最大13.1%の改善とTRECデータセットの15.41%の改善を達成することを示しています。
さらに、小規模なユーザー調査では、P&Rフレームワークの実質的な有効性が確認されています。
要約(オリジナル)
This paper studies the limitations of (retrieval-augmented) large language models (LLMs) in generating diverse and comprehensive responses, and introduces the Plan-and-Refine (P&R) framework based on a two phase system design. In the global exploration phase, P&R generates a diverse set of plans for the given input, where each plan consists of a list of diverse query aspects with corresponding additional descriptions. This phase is followed by a local exploitation phase that generates a response proposal for the input query conditioned on each plan and iteratively refines the proposal for improving the proposal quality. Finally, a reward model is employed to select the proposal with the highest factuality and coverage. We conduct our experiments based on the ICAT evaluation methodology–a recent approach for answer factuality and comprehensiveness evaluation. Experiments on the two diverse information seeking benchmarks adopted from non-factoid question answering and TREC search result diversification tasks demonstrate that P&R significantly outperforms baselines, achieving up to a 13.1% improvement on the ANTIQUE dataset and a 15.41% improvement on the TREC dataset. Furthermore, a smaller scale user study confirms the substantial efficacy of the P&R framework.
arxiv情報
著者 | Alireza Salemi,Chris Samarinas,Hamed Zamani |
発行日 | 2025-04-10 14:32:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google