Iterative Reasoning Preference Optimization

要約

反復優先最適化手法は、一般的な命令調整タスクでは良好に機能することが最近示されていますが、通常、推論タスクではほとんど改善されません (Yuan et al., 2024、Chen et al., 2024)。
この研究では、正解に導く勝敗推論ステップを最適化することで、競合する生成された思考連鎖 (CoT) 候補間の優先順位を最適化する反復アプローチを開発します。
私たちは、重要であることが判明した追加の負の対数尤度項を備えた修正 DPO 損失 (Rafailov et al., 2023) を使用してトレーニングします。
このスキームを繰り返すことで推論が改善されることを示します。
トレーニング セット内の例のみに依存していますが、私たちのアプローチにより、GSM8K では Llama-2-70B-Chat の精度が 55.6% から 81.6% (および 32 サンプルの多数決で 88.7%)、12.5% から 20.8% に向上しました。
MATH では %、ARC-Challenge では 77.8% から 86.7% となり、追加ソースのデータセットに依存しない他の Llama-2 ベースのモデルよりも優れたパフォーマンスを示します。

要約(オリジナル)

Iterative preference optimization methods have recently been shown to perform well for general instruction tuning tasks, but typically make little improvement on reasoning tasks (Yuan et al., 2024, Chen et al., 2024). In this work we develop an iterative approach that optimizes the preference between competing generated Chain-of-Thought (CoT) candidates by optimizing for winning vs. losing reasoning steps that lead to the correct answer. We train using a modified DPO loss (Rafailov et al., 2023) with an additional negative log-likelihood term, which we find to be crucial. We show reasoning improves across repeated iterations of this scheme. While only relying on examples in the training set, our approach results in increasing accuracy for Llama-2-70B-Chat from 55.6% to 81.6% on GSM8K (and 88.7% with majority voting out of 32 samples), from 12.5% to 20.8% on MATH, and from 77.8% to 86.7% on ARC-Challenge, which outperforms other Llama-2-based models not relying on additionally sourced datasets.

arxiv情報

著者 Richard Yuanzhe Pang,Weizhe Yuan,Kyunghyun Cho,He He,Sainbayar Sukhbaatar,Jason Weston
発行日 2024-04-30 17:28:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク