Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

要約

LLMの推論スキルを高めることは、幅広い関心を魅了しています。
ただし、現在の訓練後の手法は、スケーラビリティと高い注釈コストの問題に直面する結果監督や補助報酬モデルなど、監督信号に大きく依存しています。
これにより、外部の監督を必要とせずにLLMの推論を強化するようになります。
Geniusという名前の一般化可能で純粋に監視されていない自己訓練の枠組みを紹介します。
外部補助がなければ、天才は段階的に最適な応答シーケンスを求め、LLMを最適化する必要があります。
潜在的なステップを探求し、最適なステップを活用するために、天才は将来の結果をシミュレートすることにより、ステップワイズの先見性のある再サンプリング戦略を導入し、ステップ値をサンプリングおよび推定します。
さらに、監視されていない設定が必然的に本質的なノイズと不確実性を誘発することを認識します。
堅牢な最適化を提供するために、推定の矛盾を軽減するために、アドバンテージキャリブレーション最適化(ACO)損失関数を提案します。
これらの手法を組み合わせると、天才は、一般的なクエリと監督なしで、自己改善LLMの推論に向けた高度な初期ステップを提供し、一般的なクエリの膨大な入手可能性を考慮して、推論スケーリング法に革命をもたらします。
コードはhttps://github.com/xufangzhi/geniusでリリースされます。

要約(オリジナル)

Advancing LLM reasoning skills has captivated wide interest. However, current post-training techniques rely heavily on supervisory signals, such as outcome supervision or auxiliary reward models, which face the problem of scalability and high annotation costs. This motivates us to enhance LLM reasoning without the need for external supervision. We introduce a generalizable and purely unsupervised self-training framework, named Genius. Without external auxiliary, Genius requires to seek the optimal response sequence in a stepwise manner and optimize the LLM. To explore the potential steps and exploit the optimal ones, Genius introduces a stepwise foresight re-sampling strategy to sample and estimate the step value by simulating future outcomes. Further, we recognize that the unsupervised setting inevitably induces the intrinsic noise and uncertainty. To provide a robust optimization, we propose an advantage-calibrated optimization (ACO) loss function to mitigate estimation inconsistencies. Combining these techniques together, Genius provides an advanced initial step towards self-improve LLM reasoning with general queries and without supervision, revolutionizing reasoning scaling laws given the vast availability of general queries. The code will be released at https://github.com/xufangzhi/Genius.

arxiv情報

著者 Fangzhi Xu,Hang Yan,Chang Ma,Haiteng Zhao,Qiushi Sun,Kanzhi Cheng,Junxian He,Jun Liu,Zhiyong Wu
発行日 2025-04-11 16:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク