Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies

要約

大規模言語モデル (LLM) は、幅広い NLP タスクにわたって優れたパフォーマンスを実証しています。
ただし、その有効性は、幻覚、不誠実な推論、有害な内容など、望ましくない一貫性のない行動によって損なわれます。
これらの欠陥を修正するための有望なアプローチは、LLM 自体が自身の出力内の問題を修正するように促されるか誘導される自己修正です。
LLM 自体または何らかの外部システムによって生成される自動フィードバックを利用する技術は、最小限の人的フィードバックで LLM ベースのソリューションをより実用的かつ展開可能にする有望な方法であるため、特に興味深いものです。
この文書では、この新たなクラスの技術の包括的なレビューを示します。
私たちは、トレーニング時間、生成時間、事後修正など、これらの戦略を利用した最近の幅広い研究を分析し、分類します。
また、この戦略の主な応用例を要約し、最後に将来の方向性と課題について議論します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performance across a wide array of NLP tasks. However, their efficacy is undermined by undesired and inconsistent behaviors, including hallucination, unfaithful reasoning, and toxic content. A promising approach to rectify these flaws is self-correction, where the LLM itself is prompted or guided to fix problems in its own output. Techniques leveraging automated feedback — either produced by the LLM itself or some external system — are of particular interest as they are a promising way to make LLM-based solutions more practical and deployable with minimal human feedback. This paper presents a comprehensive review of this emerging class of techniques. We analyze and taxonomize a wide array of recent work utilizing these strategies, including training-time, generation-time, and post-hoc correction. We also summarize the major applications of this strategy and conclude by discussing future directions and challenges.

arxiv情報

著者 Liangming Pan,Michael Saxon,Wenda Xu,Deepak Nathani,Xinyi Wang,William Yang Wang
発行日 2023-08-30 03:47:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク