要約
大規模言語モデル (LLM) の推論機能を強化する 1 つの方法は、思考連鎖 (CoT) アノテーションを使用して教師あり微調整 (SFT) を実行することです。
ただし、トレーニングは指定された CoT データのみに依存するため、このアプローチでは十分に強力な汎化能力は示されません。
たとえば数学の問題解決では、通常、トレーニング データ内の各質問に対して注釈付きの推論パスが 1 つだけ存在します。
直感的には、質問が与えられた場合、アルゴリズムは複数の注釈付き推論パスから学習する方がよいでしょう。
この問題に対処するために、数学の問題解決を例として、推論のための LLM 学習の一般化可能性を高める強化微調整 (ReFT) と呼ばれる、シンプルかつ効果的なアプローチを提案します。
ReFT は、最初に SFT でモデルをウォームアップし、次にオンライン強化学習、特にこの論文では PPO アルゴリズムを使用してモデルをさらに微調整します。そこでは、質問が与えられた場合に豊富な推論パスが自動的にサンプリングされ、報酬が自然に得られます。
真実の答えから導き出されたもの。
GSM8K、MathQA、SVAMP データセットに関する広範な実験により、ReFT が SFT を大幅に上回るパフォーマンスが示されており、多数決や再ランキングなどの推論時戦略を組み合わせることでパフォーマンスをさらに向上できる可能性があります。
ReFT は、追加のトレーニング質問や拡張されたトレーニング質問に依存せず、SFT と同じトレーニング質問から学習することで改善が得られることに注意してください。
これは、ReFT の優れた汎化能力を示しています。
要約(オリジナル)
One way to enhance the reasoning capability of Large Language Models (LLMs) is to conduct Supervised Fine-Tuning (SFT) using Chain-of-Thought (CoT) annotations. This approach does not show sufficiently strong generalization ability, however, because the training only relies on the given CoT data. In math problem-solving, for example, there is usually only one annotated reasoning path for each question in the training data. Intuitively, it would be better for the algorithm to learn from multiple annotated reasoning paths given a question. To address this issue, we propose a simple yet effective approach called Reinforced Fine-Tuning (ReFT) to enhance the generalizability of learning LLMs for reasoning, with math problem-solving as an example. ReFT first warmups the model with SFT, and then employs on-line reinforcement learning, specifically the PPO algorithm in this paper, to further fine-tune the model, where an abundance of reasoning paths are automatically sampled given the question and the rewards are naturally derived from the ground-truth answers. Extensive experiments on GSM8K, MathQA, and SVAMP datasets show that ReFT significantly outperforms SFT, and the performance can be potentially further boosted by combining inference-time strategies such as majority voting and re-ranking. Note that ReFT obtains the improvement by learning from the same training questions as SFT, without relying on extra or augmented training questions. This indicates a superior generalization ability for ReFT.
arxiv情報
著者 | Trung Quoc Luong,Xinbo Zhang,Zhanming Jie,Peng Sun,Xiaoran Jin,Hang Li |
発行日 | 2024-06-27 15:29:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google