要約
私たちは、毒性や事実幻覚などの問題を軽減するための大規模言語モデル (LLM) の自己修正メカニズムを提案します。
この方法には、批評家の集団とモデル自身のフィードバックを通じてモデルの出力を洗練することが含まれます。
私たちは人間の行動からインスピレーションを得て、複雑なトピックの理解を洗練させるために内省を繰り返し、他人からのインプットを求める人間に見られる自己修正プロセスをLLMが模倣できるかどうかを探ります。
私たちのアプローチはモデルに依存せず、公平性、偏見、堅牢性の懸念に対処することで信頼性を高めるためにさまざまなドメインに適用できます。
私たちは、毒性を軽減し、事実上の誤りを修正するための LLM のパフォーマンスの向上を一貫して観察しています。
要約(オリジナル)
We propose a self-correction mechanism for Large Language Models (LLMs) to mitigate issues such as toxicity and fact hallucination. This method involves refining model outputs through an ensemble of critics and the model’s own feedback. Drawing inspiration from human behavior, we explore whether LLMs can emulate the self-correction process observed in humans who often engage in self-reflection and seek input from others to refine their understanding of complex topics. Our approach is model-agnostic and can be applied across various domains to enhance trustworthiness by addressing fairness, bias, and robustness concerns. We consistently observe performance improvements in LLMs for reducing toxicity and correcting factual errors.
arxiv情報
著者 | Sajad Mousavi,Ricardo Luna Gutiérrez,Desik Rengarajan,Vineet Gundecha,Ashwin Ramesh Babu,Avisek Naug,Antonio Guillen,Soumyendu Sarkar |
発行日 | 2023-11-08 13:23:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google