Internal Consistency and Self-Feedback in Large Language Models: A Survey

要約

大規模言語モデル (LLM) は、不十分な推論を示したり、幻覚を引き起こしたりすることがよくあります。
これらに対処するために、自己一貫性、自己改善、自己洗練など、「自己」の接頭語が付く研究が開始されています。
これらには、LLM 自身の評価と更新が含まれるという共通点があります。
それにもかかわらず、既存の調査は主に分類に焦点を当てているため、これらの取り組みには要約に関する統一された視点が欠けています。
この論文では、内部一貫性に関する統一的な視点を使用し、推論の欠陥と幻覚についての説明を提供します。
内部一貫性とは、サンプリング手法に基づいた LLM の潜在層、復号層、または応答層間の式の一貫性を指します。
次に、自己フィードバックと呼ばれる、内部一貫性を採掘できる効果的な理論的フレームワークを紹介します。
このフレームワークは、自己評価と自己更新の 2 つのモジュールで構成されます。
前者は内部一貫性信号をキャプチャし、後者は信号を活用してモデルの応答またはモデル自体を強化します。
このフレームワークは多くの研究で採用されています。
私たちはこれらの研究をタスクと業務内容ごとに体系的に分類しています。
関連する評価方法とベンチマークを要約します。
そして「セルフフィードバックは本当に効果があるのか​​?」という懸念を掘り下げます。
また、「内部一貫性の砂時計の進化」、「一貫性は(ほぼ)正しい」仮説、「潜在的推論と明示的推論のパラドックス」など、いくつかの重要な視点も提案します。
関連リソースは https://github.com/IAAR-Shanghai/ICSFSurvey でオープンソース化されています。

要約(オリジナル)

Large language models (LLMs) often exhibit deficient reasoning or generate hallucinations. To address these, studies prefixed with ‘Self-‘ such as Self-Consistency, Self-Improve, and Self-Refine have been initiated. They share a commonality: involving LLMs evaluating and updating themselves. Nonetheless, these efforts lack a unified perspective on summarization, as existing surveys predominantly focus on categorization. In this paper, we use a unified perspective of internal consistency, offering explanations for reasoning deficiencies and hallucinations. Internal consistency refers to the consistency in expressions among LLMs’ latent, decoding, or response layers based on sampling methodologies. Then, we introduce an effective theoretical framework capable of mining internal consistency, named Self-Feedback. This framework consists of two modules: Self-Evaluation and Self-Update. The former captures internal consistency signals, while the latter leverages the signals to enhance either the model’s response or the model itself. This framework has been employed in numerous studies. We systematically classify these studies by tasks and lines of work; summarize relevant evaluation methods and benchmarks; and delve into the concern, ‘Does Self-Feedback Really Work?’ We also propose several critical viewpoints, including the ‘Hourglass Evolution of Internal Consistency’, ‘Consistency Is (Almost) Correctness’ hypothesis, and ‘The Paradox of Latent and Explicit Reasoning’. The relevant resources are open-sourced at https://github.com/IAAR-Shanghai/ICSFSurvey.

arxiv情報

著者 Xun Liang,Shichao Song,Zifan Zheng,Hanyu Wang,Qingchen Yu,Xunkai Li,Rong-Hua Li,Yi Wang,Zhonghao Wang,Feiyu Xiong,Zhiyu Li
発行日 2024-09-18 09:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク