要約
大規模で高品質のトレーニング データは、モデルのパフォーマンスを向上させるために重要です。
根拠 (推論ステップ) のあるデータでトレーニングされた後、モデルは推論能力を獲得します。
ただし、アノテーションのコストが高いため、高品質の根拠を備えたデータセットは比較的希少です。
この問題に対処するために、私たちは \textit{自主学習} フレームワークを提案します。
このフレームワークは、モデル自体が既存のデータセットに基づいて理論的根拠を自動的に生成するように促します。
モデルは、複数の根拠にわたる正しさから得られる固有のランクに基づいて、より優れた根拠を生成することを学習し、より高い推論能力につながります。
具体的には、根拠の質を評価するランクを備えた報酬モデルを訓練し、強化学習によって推論のパフォーマンスを向上させます。
複数の推論データセットに対する Llama2 7B の実験結果は、私たちの方法がモデルの推論能力を大幅に向上させ、一部のデータセットでは text-davinci-002 よりも優れていることを示しています。
要約(オリジナル)
Large-scale high-quality training data is important for improving the performance of models. After trained with data that has rationales (reasoning steps), models gain reasoning capability. However, the dataset with high-quality rationales is relatively scarce due to the high annotation cost. To address this issue, we propose \textit{Self-motivated Learning} framework. The framework motivates the model itself to automatically generate rationales on existing datasets. Based on the inherent rank from correctness across multiple rationales, the model learns to generate better rationales, leading to higher reasoning capability. Specifically, we train a reward model with the rank to evaluate the quality of rationales, and improve the performance of reasoning through reinforcement learning. Experiment results of Llama2 7B on multiple reasoning datasets show that our method significantly improves the reasoning ability of models, even outperforming text-davinci-002 in some datasets.
arxiv情報
著者 | Yunlong Feng,Yang Xu,Libo Qin,Yasheng Wang,Wanxiang Che |
発行日 | 2024-04-30 14:38:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google