Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

要約

数学的推論タスク用の言語モデル (LM) を効果的にトレーニングするには、高品質の教師付き微調整データが必要です。
人間の専門家からアノテーションを取得する以外に、一般的な代替手段は、より大規模で強力な LM からサンプリングすることです。
ただし、この知識の蒸留アプローチは、特に動作が予測できないことが多い GPT-4 のようなクローズドソースの独自の LM に依存する場合、コストがかかり、不安定になる可能性があります。
この研究では、小規模 LM の推論能力が、モデルが自身の出力から学習するプロセスである自己学習を通じて強化できることを実証します。
また、従来の自己トレーニングが、Direct Preference Optimization (DPO) と呼ばれる嗜好学習アルゴリズムによってさらに強化できることも示します。
DPO を自己トレーニングに統合することで、嗜好データを活用して LM をより正確で多様な思考連鎖推論に導きます。
さまざまな基本モデルを使用して、さまざまな数学的推論タスクにわたってメソッドを評価します。
私たちの実験では、このアプローチが LM の推論パフォーマンスを向上させるだけでなく、大規模な独自の LM に依存する場合と比較して、よりコスト効率が高く、スケーラブルなソリューションを提供できることが示されています。

要約(オリジナル)

Effective training of language models (LMs) for mathematical reasoning tasks demands high-quality supervised fine-tuning data. Besides obtaining annotations from human experts, a common alternative is sampling from larger and more powerful LMs. However, this knowledge distillation approach can be costly and unstable, particularly when relying on closed-source, proprietary LMs like GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate that the reasoning abilities of small-scale LMs can be enhanced through self-training, a process where models learn from their own outputs. We also show that the conventional self-training can be further augmented by a preference learning algorithm called Direct Preference Optimization (DPO). By integrating DPO into self-training, we leverage preference data to guide LMs towards more accurate and diverse chain-of-thought reasoning. We evaluate our method across various mathematical reasoning tasks using different base models. Our experiments show that this approach not only improves LMs’ reasoning performance but also offers a more cost-effective and scalable solution compared to relying on large proprietary LMs.

arxiv情報

著者 Tianduo Wang,Shichen Li,Wei Lu
発行日 2024-07-25 17:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク