要約
明示的な推論の軌跡を備えたトレーニング後の大手言語モデル(LLMS)は、推論能力を高めることができます。
ただし、このような高品質の軌道データを取得するには、通常、人間または優れたモデルからの綿密な監督が必要です。これは、高価またはライセンス制約のいずれかです。
この論文では、LLMが、追加の監督なしでトレーニングデータとして、自己同様の推論パスによって推論をどの程度改善できるかを探ります。
星などの既存の自己同様の方法は、ドメイン外(OOD)の推論タスクへの一般化が不十分であることに苦しんでいます。
私たちは、彼らの自己合成された推論パスがタスク固有であるため、一般的なタスクに依存しない推論ガイダンスがないことを仮定しています。
これに対処するために、私たちは自己改善(再生)を介して推論ゼネラリストを提案します。これは、抽象的なものからコンクリートへと進むことにより、トレーニング後のデータとして推論後のパスを自己同意する方法です。
より具体的には、再生は、一般的な推論ガイドラインをタスク固有のガイドラインに変換し、推論構造を生成し、その後、既存の方法で使用されるタスク固有の例を必要とせずに、これらの構造を推論パスに変換することにより、推論パスを自己合成します。
再生は、既存の方法と比較してテストされたすべてのドメインおよびOOD設定で優れたパフォーマンスを達成することを示します。
特に6つのOODタスクでは、以前の方法ではトレーニング後の平均パフォーマンスが約4.6%の低下を示しましたが、再生は約6.1%のパフォーマンス改善をもたらします。
また、フレームワークの詳細な分析を実施し、さまざまなLLMと設計の選択にわたって効果的であることを示しています。
要約(オリジナル)
Post-training Large Language Models (LLMs) with explicit reasoning trajectories can enhance their reasoning abilities. However, acquiring such high-quality trajectory data typically demands meticulous supervision from humans or superior models, which can be either expensive or license-constrained. In this paper, we explore how far an LLM can improve its reasoning by self-synthesizing reasoning paths as training data without any additional supervision. Existing self-synthesizing methods, such as STaR, suffer from poor generalization to out-of-domain (OOD) reasoning tasks. We hypothesize it is due to that their self-synthesized reasoning paths are too task-specific, lacking general task-agnostic reasoning guidance. To address this, we propose Reasoning Generalist via Self-Improvement (ReGenesis), a method to self-synthesize reasoning paths as post-training data by progressing from abstract to concrete. More specifically, ReGenesis self-synthesizes reasoning paths by converting general reasoning guidelines into task-specific ones, generating reasoning structures, and subsequently transforming these structures into reasoning paths, without the need for human-designed task-specific examples used in existing methods. We show that ReGenesis achieves superior performance on all in-domain and OOD settings tested compared to existing methods. For six OOD tasks specifically, while previous methods exhibited an average performance decrease of approximately 4.6% after post training, ReGenesis delivers around 6.1% performance improvement. We also conduct in-depth analysis of our framework and show ReGenesis is effective across various LLMs and design choices.
arxiv情報
著者 | Xiangyu Peng,Congying Xia,Xinyi Yang,Caiming Xiong,Chien-Sheng Wu,Chen Xing |
発行日 | 2025-04-16 17:50:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google