ARM: Efficient Guided Decoding with Autoregressive Reward Models

要約

大量のデータで学習された言語モデルを実世界に安全に展開するには、慎重なチューニングが必要である。我々は、タスクに特化した報酬モデルからのスコアを用いて、基本言語モデルのロジットを補強することを目的とした、ガイド付きデコーディングパラダイムを再考する。我々は、高速かつ効果的なガイド付きデコーディングを可能にする、自己回帰報酬モデルの単純かつ効率的なパラメータ化を提案する。無害化タスクと感情制御タスクにおいて、我々の効率的なパラメータ化が、強力だが効率的でないガイド付きデコーディングアプローチであるRADと同等の性能を示す。

要約(オリジナル)

Language models trained on large amounts of data require careful tuning to be safely deployed in real world. We revisit the guided decoding paradigm, where the goal is to augment the logits of the base language model using the scores from a task-specific reward model. We propose a simple but efficient parameterization of the autoregressive reward model enabling fast and effective guided decoding. On detoxification and sentiment control tasks, we show that our efficient parameterization performs on par with RAD, a strong but less efficient guided decoding approach.

arxiv情報

著者 Sergey Troshin,Vlad Niculae,Antske Fokkens
発行日 2024-07-05 16:11:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク