HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation

要約

大規模言語モデル (LLM) が多数のアプリケーションで広く採用されるようになったことで、事実性と幻覚の傾向に対する課題が重大な懸念事項として浮上しています。
この問題、特に検索強化型インコンテキスト学習において、我々は、階層型思考グラフ (HGOT) を導入します。これは、インコンテキスト学習中の関連する文章の検索を強化するように設計された、構造化された多層グラフ アプローチです。
このフレームワークは LLM の緊急計画機能を利用し、分割統治戦略を採用して複雑なクエリを管理可能なサブクエリに分割します。
これは、回答選択のための自己矛盾多数決を改良し、最近提案された引用再現率と思考の質を評価する精度の指標を組み込んでおり、回答の信頼性を本質的に思考の質に結び付けます。
この方法論では、多数決で加重システムを導入し、考えの引用の質に基づいて回答に優先順位を付けます。
さらに、引用頻度と質、自己一貫性の信頼性、検索モジュールのランキングなどの要素を考慮して、検索された文章を評価するためのスコアリングメカニズムを提案します。
実験によると、HGOT は多用途のアプローチとして優れており、FEVER の競合モデルを最大 $7\%$ 上回り、Open-SQuAD の Retrieve-then-Read、HotPotQA の DSP などの主要モデルと一致し、LLM の機能を強化する効果を実証しています。
事実。

要約(オリジナル)

With the widespread adoption of large language models (LLMs) in numerous applications, the challenge of factuality and the propensity for hallucinations has emerged as a significant concern. To address this issue, particularly in retrieval-augmented in-context learning, we introduce the hierarchical graph of thoughts (HGOT), a structured, multi-layered graph approach designed to enhance the retrieval of pertinent passages during in-context learning. The framework utilizes the emergent planning capabilities of LLMs, employing the divide-and-conquer strategy to break down complex queries into manageable sub-queries. It refines self-consistency majority voting for answer selection, which incorporates the recently proposed citation recall and precision metrics to assess the quality of thoughts, linking an answer’s credibility intrinsically to the thought’s quality. This methodology introduces a weighted system in majority voting, prioritizing answers based on the citation quality of their thoughts. Additionally, we propose a scoring mechanism for evaluating retrieved passages, considering factors such as citation frequency and quality, self-consistency confidence, and the retrieval module’s ranking. Experiments indicate that HGOT excels as a versatile approach, outperforming competing models in FEVER by up to $7\%$ and matching leading models such as Retrieve-then-Read in Open-SQuAD, and DSP in HotPotQA, demonstrating its efficacy in enhancing LLMs’ factuality.

arxiv情報

著者 Yihao Fang,Stephen W. Thomas,Xiaodan Zhu
発行日 2024-07-02 12:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク