要約
多数のアプリケーションで大規模言語モデル (LLM) が広く採用されるにつれ、事実性と幻覚の傾向に対する課題が大きな懸念を引き起こしています。
この問題、特に検索強化型インコンテキスト学習において、我々は、階層型思考グラフ (HGOT) を導入します。これは、インコンテキスト学習中の関連する文章の検索を強化するように設計された、構造化された多層グラフ アプローチです。
このフレームワークは LLM の緊急計画機能を利用し、分割統治戦略を採用して複雑なクエリを管理可能なサブクエリに分割します。
これは、回答選択のための自己矛盾多数決を改良し、最近提案された引用再現率と思考の質を評価する精度の指標を組み込んでおり、回答の信頼性を本質的に思考の質に結び付けます。
この方法論では、多数決で加重システムを導入し、考えの引用の質に基づいて回答に優先順位を付けます。
さらに、引用頻度と質、自己一貫性の信頼性、検索モジュールのランキングなどの要素を考慮して、検索された文章を評価するためのスコアリングメカニズムを提案します。
実験の結果、HGOT は、さまざまなデータセットに対して、Demonstrate-Search-Predict (DSP)、ReAct、Self-Ask、Retrieve-then-Read など、他の検索強化型インコンテキスト学習手法よりも $7\%$ も優れたパフォーマンスを発揮することが明らかになりました。
LLM の事実性を高める効果。
要約(オリジナル)
With the widespread adoption of large language models (LLMs) in numerous applications, the challenge of factuality and the propensity for hallucinations raises significant concerns. To address this issue, particularly in retrieval-augmented in-context learning, we introduce the hierarchical graph of thoughts (HGOT), a structured, multi-layered graph approach designed to enhance the retrieval of pertinent passages during in-context learning. The framework utilizes the emergent planning capabilities of LLMs, employing the divide-and-conquer strategy to break down complex queries into manageable sub-queries. It refines self-consistency majority voting for answer selection, which incorporates the recently proposed citation recall and precision metrics to assess the quality of thoughts, linking an answer’s credibility intrinsically to the thought’s quality. This methodology introduces a weighted system in majority voting, prioritizing answers based on the citation quality of their thoughts. Additionally, we propose a scoring mechanism for evaluating retrieved passages, considering factors such as citation frequency and quality, self-consistency confidence, and the retrieval module’s ranking. Experiments reveal that HGOT outperforms other retrieval-augmented in-context learning methods, including Demonstrate-Search-Predict (DSP), ReAct, Self-Ask, and Retrieve-then-Read on different datasets by as much as $7\%$, demonstrating its efficacy in enhancing the factuality of LLMs.
arxiv情報
著者 | Yihao Fang,Stephen W. Thomas,Xiaodan Zhu |
発行日 | 2024-02-14 18:41:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google