要約
RLHF、自動レッドチーム化、プロンプト エンジニアリング、インフィルなど、大規模言語モデル (LLM) の多数の機能と安全性手法を、シーケンス全体にわたる特定の報酬関数またはポテンシャル関数によって定義された非正規化ターゲット分布からのサンプリングとしてキャストできます。
この作業では、これらの確率的推論問題に対して逐次モンテカルロ (SMC) の豊富なツールキットを活用します。
特に、学習されたツイスト関数を使用して、各タイムステップでのポテンシャルの将来の期待値を推定します。これにより、推論時の計算を有望な部分シーケンスに集中させることができます。
我々は、ツイスト関数を学習するための新しい対照的な方法を提案し、ソフト強化学習の豊富な文献とのつながりを確立します。
ツイスト SMC フレームワークの補完的なアプリケーションとして、ログ パーティション関数の新しい双方向 SMC 境界を使用して、言語モデル推論技術の精度を評価する方法を紹介します。
これらの境界を使用して、推論分布とターゲット分布の間の KL 発散を両方向で推定できます。
推論評価手法を適用して、ツイスト SMC が、事前トレーニング済みモデル (無害性トレーニングと自動レッドチームの有用なコンポーネント) から望ましくない出力をサンプリングし、さまざまなセンチメントを含むレビューを生成し、充填タスクを実行するのに効果的であることを示します。
要約(オリジナル)
Numerous capability and safety techniques of Large Language Models (LLMs), including RLHF, automated red-teaming, prompt engineering, and infilling, can be cast as sampling from an unnormalized target distribution defined by a given reward or potential function over the full sequence. In this work, we leverage the rich toolkit of Sequential Monte Carlo (SMC) for these probabilistic inference problems. In particular, we use learned twist functions to estimate the expected future value of the potential at each timestep, which enables us to focus inference-time computation on promising partial sequences. We propose a novel contrastive method for learning the twist functions, and establish connections with the rich literature of soft reinforcement learning. As a complementary application of our twisted SMC framework, we present methods for evaluating the accuracy of language model inference techniques using novel bidirectional SMC bounds on the log partition function. These bounds can be used to estimate the KL divergence between the inference and target distributions in both directions. We apply our inference evaluation techniques to show that twisted SMC is effective for sampling undesirable outputs from a pretrained model (a useful component of harmlessness training and automated red-teaming), generating reviews with varied sentiment, and performing infilling tasks.
arxiv情報
著者 | Stephen Zhao,Rob Brekelmans,Alireza Makhzani,Roger Grosse |
発行日 | 2024-04-26 17:18:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google