Inference-Time Language Model Alignment via Integrated Value Guidance

要約

通常、大規模な言語モデルは人間の好みに合わせて微調整されますが、大規模なモデルの調整は計算量が多く複雑です。
この研究では、暗黙的および明示的な値関数を使用して言語モデルのデコードをそれぞれトークンレベルとチャンクレベルでガイドし、純粋に推論時に大規模な言語モデルを効率的に調整するメソッドである $\textit{Integrated Value Guide}$ (IVG) を導入します。

このアプローチは、直接微調整の複雑さを回避し、従来の方法よりも優れたパフォーマンスを発揮します。
私たちは経験的に、さまざまなタスクにわたる IVG の多用途性を実証しています。
制御された感情生成および要約タスクでは、私たちの方法は、$\texttt{gpt2}$ ベースの値関数からの推論時間のガイダンスを使用して、大規模モデルの整合性を大幅に改善します。
さらに、より困難な命令追従ベンチマーク AlpacaEval 2.0 では、特別に調整された値関数と既製の値関数の両方が、$\texttt{gpt-4-turbo}$ に対する大規模モデルの長さ制御の勝率を大幅に向上させることを示しました。
(例: $\texttt{Mistral-7B-Instruct-v0.2}$ の場合は $19.51\% \rightarrow 26.51\%$、$\texttt{Mixtral-8x7B-Instruct-v0 の場合は $25.58\% \rightarrow 33.75\%$
.1}$(Tulu ガイダンス付き))。

要約(オリジナル)

Large language models are typically fine-tuned to align with human preferences, but tuning large models is computationally intensive and complex. In this work, we introduce $\textit{Integrated Value Guidance}$ (IVG), a method that uses implicit and explicit value functions to guide language model decoding at token and chunk-level respectively, efficiently aligning large language models purely at inference time. This approach circumvents the complexities of direct fine-tuning and outperforms traditional methods. Empirically, we demonstrate the versatility of IVG across various tasks. In controlled sentiment generation and summarization tasks, our method significantly improves the alignment of large models using inference-time guidance from $\texttt{gpt2}$-based value functions. Moreover, in a more challenging instruction-following benchmark AlpacaEval 2.0, we show that both specifically tuned and off-the-shelf value functions greatly improve the length-controlled win rates of large models against $\texttt{gpt-4-turbo}$ (e.g., $19.51\% \rightarrow 26.51\%$ for $\texttt{Mistral-7B-Instruct-v0.2}$ and $25.58\% \rightarrow 33.75\%$ for $\texttt{Mixtral-8x7B-Instruct-v0.1}$ with Tulu guidance).

arxiv情報

著者 Zhixuan Liu,Zhanhui Zhou,Yuanfu Wang,Chao Yang,Yu Qiao
発行日 2024-09-26 13:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク