要約
大規模言語モデル (LLM) の自己トレーニング アプローチは、自己生成された理論的根拠に基づいてモデルをトレーニングすることで推論能力を向上させます。
これまでのアプローチでは、特定の質問に対して正しい答えが得られる理論的根拠に、トレーニングに適したものとしてラベルが付けられていました。
ただし、単一の測定では理論的根拠の品質を誤って判断する危険があり、モデルが欠陥のある推論パターンを学習することになります。
この問題に対処するために、私たちは CREST (自己トレーニングのための一貫性主導の根拠評価) を提案します。これは、フォローアップの質問を通じて各理論的根拠をさらに評価し、この評価をトレーニングのガイドに活用する自己トレーニング フレームワークです。
具体的には、(1)フォローアップ質問で誤答が多い根拠をフィルタリングする方法と、(2)元の質問とフォローアップ質問の両方の根拠評価結果から混合嗜好に基づく嗜好学習の2つの方法を紹介します。
オープン LLM を使用した 3 つの質問応答データセットの実験では、CREST が論理的な堅牢性と根拠の正しさを向上させるだけでなく、以前の自己トレーニング アプローチと比較して推論能力も向上させることが示されました。
要約(オリジナル)
Self-training approach for large language models (LLMs) improves reasoning abilities by training the models on their self-generated rationales. Previous approaches have labeled rationales that produce correct answers for a given question as appropriate for training. However, a single measure risks misjudging rationale quality, leading the models to learn flawed reasoning patterns. To address this issue, we propose CREST (Consistency-driven Rationale Evaluation for Self-Training), a self-training framework that further evaluates each rationale through follow-up questions and leverages this evaluation to guide its training. Specifically, we introduce two methods: (1) filtering out rationales that frequently result in incorrect answers on follow-up questions and (2) preference learning based on mixed preferences from rationale evaluation results of both original and follow-up questions. Experiments on three question-answering datasets using open LLMs show that CREST not only improves the logical robustness and correctness of rationales but also improves reasoning abilities compared to previous self-training approaches.
arxiv情報
著者 | Jaehyeok Lee,Keisuke Sakaguchi,JinYeong Bak |
発行日 | 2024-11-22 08:54:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google