Self-Refine: Iterative Refinement with Self-Feedback

要約

タイトル:Self-Refine: Iterative Refinement with Self-Feedback

要約:

– LLMは、例えば要約、回答、説明などの問題に対して最初の試みで最高のテキストを生成してはいない。
– 自己改善(SELF-REFINE)は、反復的なフィードバックと改善を通じて、LLMの最初の出力を改善するためのフレームワークである。
– このフレームワークでは、LLMを使用して出力を生成し、同じモデルに自己フィードバックを提供し、同じモデルが自身のフィードバックを元に以前に生成された出力を改善する。
– この反復的な改善フレームワークは、監視されたトレーニングデータや強化学習を必要とせず、単一のLLMで動作する。
– レビューの書き換えから数学的推論まで、7つの多様なタスクで実験を行い、SELF-REFINEを使用した出力が直接生成したGPT-3.5とGPT-4に比べて人間と自動評価指標で優れていることを示した。
– すべてのタスクで、SELF-REFINEで生成された出力は、平均で20%以上改善され、人間によって好まれ、自動メトリックで優れている。

要約(オリジナル)

Like people, LLMs do not always generate the best text for a given generation problem on their first try (e.g., summaries, answers, explanations). Just as people then refine their text, we introduce SELF-REFINE, a framework for similarly improving initial outputs from LLMs through iterative feedback and refinement. The main idea is to generate an output using an LLM, then allow the same model to provide multi-aspect feedback for its own output; finally, the same model refines its previously generated output given its own feedback. Unlike earlier work, our iterative refinement framework does not require supervised training data or reinforcement learning, and works with a single LLM. We experiment with 7 diverse tasks, ranging from review rewriting to math reasoning, demonstrating that our approach outperforms direct generation. In all tasks, outputs generated with SELF-REFINE are preferred by humans and by automated metrics over those generated directly with GPT-3.5 and GPT-4, improving on average by absolute 20% across tasks.

arxiv情報

著者 Aman Madaan,Niket Tandon,Prakhar Gupta,Skyler Hallinan,Luyu Gao,Sarah Wiegreffe,Uri Alon,Nouha Dziri,Shrimai Prabhumoye,Yiming Yang,Sean Welleck,Bodhisattwa Prasad Majumder,Shashank Gupta,Amir Yazdanbakhsh,Peter Clark
発行日 2023-03-30 18:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク