要約
自己批判は、LLM の推論パフォーマンスを向上させるための重要なメカニズムとなっています。
しかし、現在のアプローチは、追加のトレーニングを行わずに基本的なプロンプトを主に使用しており、過度に単純化される傾向があり、精度が限られています。さらに、LLM の批判能力とタスク解決能力との関係についての詳細な調査が不足しています。
これらの問題に対処するために、我々は、段階的な CoT 推論形式と遠隔監視データ構築を介して、人間による注釈を必要とせずに、LLM を System-2 のような批評家能力に向けて推進する新しいフレームワークである Critic-CoT を提案します。
GSM8K と MATH の実験では、無効な解のフィルタリングや反復改良によって、強化されたモデルがタスク解決のパフォーマンスを向上させ、この手法の有効性が実証されたことが示されています。
さらに、批評と洗練のトレーニングだけでも世代が向上することがわかりました。
私たちの研究が、LLM の推論能力と批評能力の向上に関する将来の研究に光を当てることができれば幸いです。
要約(オリジナル)
Self-critic has become an important mechanism for enhancing the reasoning performance of LLMs. However, current approaches mainly involve basic prompts without further training, which tend to be over-simplified, leading to limited accuracy.Moreover, there is a lack of in-depth investigation of the relationship between LLM’s ability to criticism and its task-solving performance.To address these issues, we propose Critic-CoT, a novel framework that pushes LLMs toward System-2-like critic capability, via step-wise CoT reasoning format and distant-supervision data construction, without the need for human annotation. Experiments on GSM8K and MATH show that via filtering out invalid solutions or iterative refinement, our enhanced model boosts task-solving performance, which demonstrates the effectiveness of our method. Further, we find that training on critique and refinement alone improves the generation. We hope our work could shed light on future research on improving the reasoning and critic ability of LLMs.
arxiv情報
著者 | Xin Zheng,Jie Lou,Boxi Cao,Xueru Wen,Yuqiu Ji,Hongyu Lin,Yaojie Lu,Xianpei Han,Debing Zhang,Le Sun |
発行日 | 2024-08-29 08:02:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google