Internal Consistency and Self-Feedback in Large Language Models: A Survey

要約

大規模言語モデル (LLM) は正確に応答することが期待されますが、不十分な推論を示したり、幻覚的なコンテンツを生成したりすることがよくあります。
これらに対処するために、自己一貫性、自己改善、自己洗練など、「自己」を冠した研究が開始されています。
これらには、問題を軽減するために LLM 自体を評価および更新するという共通点があります。
それにもかかわらず、既存の調査は主にこれらの作業の背後にある動機を調査せずに分類に焦点を当てているため、これらの取り組みには要約に関する統一された視点が欠けています。
この論文では、推論の欠如や幻覚の存在などの現象について統一的な説明を提供する、内部整合性と呼ばれる理論的枠組みを要約します。
内部一貫性は、サンプリング手法に基づいて、LLM の潜在層、復号層、応答層の間の一貫性を評価します。
内部一貫性フレームワークを拡張して、内部一貫性をマイニングできる合理的でありながら効果的な理論フレームワークであるセルフ フィードバックを紹介します。
自己フィードバック フレームワークは、自己評価と自己更新の 2 つのモジュールで構成されます。
このフレームワークは多くの研究で採用されています。
私たちはこれらの研究をタスクと業務内容ごとに体系的に分類しています。
関連する評価方法とベンチマークを要約します。
そして、「セルフフィードバックは本当に機能するのか?」という懸念を掘り下げ、「内部一貫性の砂時計進化」、「一貫性は(ほぼ)正しい」仮説、「
潜在推論と明示推論のパラドックス」。
さらに、将来の研究の有望な方向性を概説します。
私たちは実験コード、参考文献リスト、統計データをオープンソース化しており、\url{https://github.com/IAAR-Shanghai/ICSFSurvey} で入手できます。

要約(オリジナル)

Large language models (LLMs) are expected to respond accurately but often exhibit deficient reasoning or generate hallucinatory content. To address these, studies prefixed with “Self-” such as Self-Consistency, Self-Improve, and Self-Refine have been initiated. They share a commonality: involving LLMs evaluating and updating itself to mitigate the issues. Nonetheless, these efforts lack a unified perspective on summarization, as existing surveys predominantly focus on categorization without examining the motivations behind these works. In this paper, we summarize a theoretical framework, termed Internal Consistency, which offers unified explanations for phenomena such as the lack of reasoning and the presence of hallucinations. Internal Consistency assesses the coherence among LLMs’ latent layer, decoding layer, and response layer based on sampling methodologies. Expanding upon the Internal Consistency framework, we introduce a streamlined yet effective theoretical framework capable of mining Internal Consistency, named Self-Feedback. The Self-Feedback framework consists of two modules: Self-Evaluation and Self-Update. This framework has been employed in numerous studies. We systematically classify these studies by tasks and lines of work; summarize relevant evaluation methods and benchmarks; and delve into the concern, “Does Self-Feedback Really Work?” We propose several critical viewpoints, including the “Hourglass Evolution of Internal Consistency”, “Consistency Is (Almost) Correctness” hypothesis, and “The Paradox of Latent and Explicit Reasoning”. Furthermore, we outline promising directions for future research. We have open-sourced the experimental code, reference list, and statistical data, available at \url{https://github.com/IAAR-Shanghai/ICSFSurvey}.

arxiv情報

著者 Xun Liang,Shichao Song,Zifan Zheng,Hanyu Wang,Qingchen Yu,Xunkai Li,Rong-Hua Li,Feiyu Xiong,Zhiyu Li
発行日 2024-07-19 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク