Suppressing Pink Elephants with Direct Principle Feedback

要約

RLHF や憲法 AI など、言語モデルを制御するための既存の方法には、どの LLM 動作が望ましいかを判断し、それらを言語モデルにトレーニングすることが含まれます。
ただし、多くの場合、LLM は、多様なニーズを持つ複数のコンテキストで使用できるように、\textit{推論時}に制御可能であることが望ましいです。
これを \textbf{ピンクの象の問題} で説明します。特定のエンティティ (「ピンクの象」) について議論することを避け、代わりに優先エンティティ (「灰色の象」) について議論するように LLM に指示します。
私たちは、Constitutional AI の新しい単純化である \textbf{Direct Principle Feedback} を適用します。これは、回答のランキングをスキップし、批判や改訂に対して DPO を直接使用します。
私たちの結果は、合成 Pink Elephants データセットで DPF 微調整した後、13B 微調整された LLaMA 2 モデルが Llama-2-13B-Chat およびプロンプトベースラインを大幅に上回り、厳選されたデータセットで GPT-4 と同等のパフォーマンスを示していることを示しています。
ピンクエレファント問題を評価するテスト セット。

要約(オリジナル)

Existing methods for controlling language models, such as RLHF and Constitutional AI, involve determining which LLM behaviors are desirable and training them into a language model. However, in many cases, it is desirable for LLMs to be controllable \textit{at inference time}, so that they can be used in multiple contexts with diverse needs. We illustrate this with the \textbf{Pink Elephant Problem}: instructing an LLM to avoid discussing a certain entity (a “Pink Elephant”), and instead discuss a preferred entity (“Grey Elephant”). We apply a novel simplification of Constitutional AI, \textbf{Direct Principle Feedback}, which skips the ranking of responses and uses DPO directly on critiques and revisions. Our results show that after DPF fine-tuning on our synthetic Pink Elephants dataset, our 13B fine-tuned LLaMA 2 model significantly outperforms Llama-2-13B-Chat and a prompted baseline, and performs as well as GPT-4 in on our curated test set assessing the Pink Elephant Problem.

arxiv情報

著者 Louis Castricato,Nathan Lile,Suraj Anand,Hailey Schoelkopf,Siddharth Verma,Stella Biderman
発行日 2024-02-12 18:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク