Making Large Language Models Better Reasoners with Alignment

要約

推論は、証拠を使用して健全な結論に達する認知プロセスです。
推論機能は、汎用人工知能エージェントの頭脳として機能する大規模言語モデル (LLM) にとって不可欠です。
最近の研究では、思考連鎖 (COT) 推論プロセスを使用してデータの LLM を微調整することで、推論能力を大幅に強化できることが明らかになりました。
しかし、微調整された LLM は \textit{評価の不整合} 問題に悩まされていることがわかりました。つまり、標準以下の COT に高いスコアを割り当てることが多く、推論能力に潜在的な限界が生じています。
この問題に対処するために、\textit{Alignment Fine-Tuning (AFT)} パラダイムを導入します。これには 3 つのステップが含まれます。1) COT トレーニング データを使用して LLM を微調整する。
2) 各質問に対して複数の COT 応答を生成し、正解に達したかどうかに基づいてそれらを肯定的な応答と否定的な応答に分類します。
3) 新しい制約アラインメント損失を使用して、LLM によって与えられた肯定的応答と否定的応答のスコアを調整します。
具体的には、制約アライメント損失には 2 つの目的があります。a) アライメント。正のスコアが負のスコアを上回ることを保証し、高品質の COT での回答を促進します。
b) 制約。モデルの劣化を防ぐために負のスコアを妥当な範囲に制限します。
バイナリの正と負のフィードバックを超えて、ランキング フィードバックがアクセス可能な場合、制約アライメントの損失をランキング状況にシームレスに適応させることができます。
さらに、DPO、RRHF、PRO などの最近のランキングベースの調整方法も深く掘り下げ、これらのアプローチでは見落とされてきた制約もパフォーマンスにとって重要であることを発見しました。
バイナリ フィードバックとランキング フィードバックの両方を使用した 4 つの推論ベンチマークに関する広範な実験により、AFT の有効性が実証されました。

要約(オリジナル)

Reasoning is a cognitive process of using evidence to reach a sound conclusion. The reasoning capability is essential for large language models (LLMs) to serve as the brain of the artificial general intelligence agent. Recent studies reveal that fine-tuning LLMs on data with the chain of thought (COT) reasoning process can significantly enhance their reasoning capabilities. However, we find that the fine-tuned LLMs suffer from an \textit{Assessment Misalignment} problem, i.e., they frequently assign higher scores to subpar COTs, leading to potential limitations in their reasoning abilities. To address this problem, we introduce an \textit{Alignment Fine-Tuning (AFT)} paradigm, which involves three steps: 1) fine-tuning LLMs with COT training data; 2) generating multiple COT responses for each question, and categorizing them into positive and negative ones based on whether they achieve the correct answer; 3) calibrating the scores of positive and negative responses given by LLMs with a novel constraint alignment loss. Specifically, the constraint alignment loss has two objectives: a) Alignment, which guarantees that positive scores surpass negative scores to encourage answers with high-quality COTs; b) Constraint, which keeps the negative scores confined to a reasonable range to prevent the model degradation. Beyond just the binary positive and negative feedback, the constraint alignment loss can be seamlessly adapted to the ranking situations when ranking feedback is accessible. Furthermore, we also delve deeply into recent ranking-based alignment methods, such as DPO, RRHF, and PRO, and discover that the constraint, which has been overlooked by these approaches, is also crucial for their performance. Extensive experiments on four reasoning benchmarks with both binary and ranking feedback demonstrate the effectiveness of AFT.

arxiv情報

著者 Peiyi Wang,Lei Li,Liang Chen,Feifan Song,Binghuai Lin,Yunbo Cao,Tianyu Liu,Zhifang Sui
発行日 2023-09-05 11:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク