Better Instruction-Following Through Minimum Bayes Risk

要約

人間レベルの評価が可能な汎用 LLM ジャッジは、指示に従う LLM を評価するスケーラブルかつ正確な方法を提供するだけでなく、パフォーマンスを監督および改善するための新しい手段も提供します。
LLM ジャッジを監督に活用する有望な方法の 1 つは、最小ベイズ リスク (MBR) デコードを使用することです。これは、参照ベースの評価器を使用して、一連の候補出力の中から高品質の出力を選択します。
この研究の最初の部分では、命令追従 LLM のテスト時のパフォーマンスを向上させる方法として MBR デコードを使用する方法を検討します。
参照ベースの LLM ジャッジを使用した MBR デコードは、欲張りデコード、参照フリーのジャッジを使用した Best-of-N デコード、および AlpacaEval および MT-Bench の字句および埋め込みベースのメトリクスを使用した MBR デコードよりも大幅に改善されることがわかりました。
これらのゲインは、最大 70B パラメータの LLM 全体で一貫しており、より小規模な LLM ジャッジを使用して、より大規模な LLM を監督できることが実証されています。
次に、追加のテスト時間コストを軽減しながら、MBR デコードによる改善を維持するために、MBR デコードされた出力に対する反復的な自己トレーニングを検討します。
Direct Preference Optimization を使用した自己トレーニングは大幅なパフォーマンスの向上につながることがわかりました。つまり、貪欲なデコードを使用して自己トレーニングされたモデルは、MBR デコードを使用したベース モデルのパフォーマンスとほぼ一致し、場合によってはそれを超えることもあります。

要約(オリジナル)

General-purpose LLM judges capable of human-level evaluation provide not only a scalable and accurate way of evaluating instruction-following LLMs but also new avenues for supervising and improving their performance. One promising way of leveraging LLM judges for supervision is through Minimum Bayes Risk (MBR) decoding, which uses a reference-based evaluator to select a high-quality output from amongst a set of candidate outputs. In the first part of this work, we explore using MBR decoding as a method for improving the test-time performance of instruction-following LLMs. We find that MBR decoding with reference-based LLM judges substantially improves over greedy decoding, best-of-N decoding with reference-free judges and MBR decoding with lexical and embedding-based metrics on AlpacaEval and MT-Bench. These gains are consistent across LLMs with up to 70B parameters, demonstrating that smaller LLM judges can be used to supervise much larger LLMs. Then, seeking to retain the improvements from MBR decoding while mitigating additional test-time costs, we explore iterative self-training on MBR-decoded outputs. We find that self-training using Direct Preference Optimisation leads to significant performance gains, such that the self-trained models with greedy decoding generally match and sometimes exceed the performance of their base models with MBR decoding.

arxiv情報

著者 Ian Wu,Patrick Fernandes,Amanda Bertsch,Seungone Kim,Sina Pakazad,Graham Neubig
発行日 2024-10-07 16:25:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク