要約
大規模な言語モデル(LLMS)を人間の好みに合わせて、アプリケーションには不可欠です。
最近、デコード時間アライメントは、微調整モデルパラメーターを回避する効果的なプラグアンドプレイ手法として浮上しています。
このアプローチは、前処理されたLLMの一般的なユーティリティを保持しますが、主に無駄なトークン生成と過度の報酬評価により、デコード中に重大な非効率性に苦しむことがよくあります。
これらの課題に対処するために、カスケード報酬サンプリング(カード)を導入して、デコード時のアライメントの両方の効率ボトルネックを解決します。
具体的には、LLMと報酬モデル(RMS)の両方の冗長計算を最小化するセグメントレベルの拒否サンプリングアルゴリズムを開発します。
カードの中心は不確実性に基づいたセグメンテーションメカニズムであり、不完全なセグメントでのRMS評価の精度を保証します。
さらに、セグメントの報酬スコアの詳細な分析を提供して、改善されたアライメントパフォーマンスを解明します。
実験結果は、カードが既存のデコード時間アライメント方法と比較してデコード効率、アライメントの品質、一般的なユーティリティを大幅に改善し、デコード時間の約70%の短縮、ユーティリティおよび安全ベンチマークの90%を超えるウィンタイを達成することを示しています。
要約(オリジナル)
Aligning large language models (LLMs) with human preferences is essential for their applications. Recently, decoding-time alignment has emerged as an effective plug-and-play technique that avoids fine-tuning model parameters. This approach retains the general utility of pretrained LLMs but often suffers from significant inefficiencies during decoding, primarily due to wasted token generation and excessive reward evaluations. To address these challenges, we introduce Cascade Reward Sampling (CARDS) to resolve both efficiency bottlenecks in decoding-time alignment. Specifically, we develop a segment-level rejection sampling algorithm that minimizes redundant computations of both LLMs and reward models (RMs). Central to CARDS is an uncertainty-based segmentation mechanism, which ensures the accuracy of RMs evaluations on incomplete segments. Furthermore, we provide a detailed analysis of reward scores on segments to elucidate the improved alignment performance. Experimental results demonstrate that CARDS significantly improves decoding efficiency, alignment quality, and general utility compared to existing decoding-time alignment methods, achieving approximately a 70% reduction in decoding time and over 90% win-ties in utility and safety benchmarks.
arxiv情報
著者 | Bolian Li,Yifan Wang,Anamika Lochab,Ananth Grama,Ruqi Zhang |
発行日 | 2025-03-31 15:07:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google