Systematic Rectification of Language Models via Dead-end Analysis

要約

敵対的または通常のプロンプトでは、既存の大規模言語モデル (LLM) をプッシュして有毒な言説を生成できます。
LLM が望ましくない言説を生成するリスクを減らす 1 つの方法は、LLM のトレーニングを変更することです。
これは、計算要件が厳しいため、非常に制限される可能性があります。
他の方法は、ルールベースまたはプロンプトベースのトークン除去に依存していますが、将来のトークンと完全な談話の全体的な意味を却下するため、制限があります。
ここでは、完成した談話が最終的に有毒であると見なされる確率に解毒を集中させます。
つまり、各時点で、この時点から完成したテキストが有害になる可能性に比例してトークンを選択しないことをお勧めします。
この目的のために、最近の強化学習 (RL) 文献から行き止まり理論を正式に拡張して、不確実な結果もカバーします。
整流と呼ばれる私たちのアプローチは、解毒のために別個の、しかし非常に小さいモデルを利用します。これは、同じ語彙を共有している限り、さまざまな LLM に適用できます。
重要なことは、私たちの方法はLLMの内部表現へのアクセスを必要とせず、各デコードステップでのトークン確率分布のみを必要とすることです。
今日の多くの LLM はサーバーでホストされ、API を介してのみアクセスできるため、これは非常に重要です。
GPT-3 を含むさまざまな LLM に適用すると、私たちのアプローチは、言語全体と解毒パフォーマンスの両方の点で、基本 LLM や他の手法と比較して、生成された談話を大幅に改善します。

要約(オリジナル)

With adversarial or otherwise normal prompts, existing large language models (LLM) can be pushed to generate toxic discourses. One way to reduce the risk of LLMs generating undesired discourses is to alter the training of the LLM. This can be very restrictive due to demanding computation requirements. Other methods rely on rule-based or prompt-based token elimination, which are limited as they dismiss future tokens and the overall meaning of the complete discourse. Here, we center detoxification on the probability that the finished discourse is ultimately considered toxic. That is, at each point, we advise against token selections proportional to how likely a finished text from this point will be toxic. To this end, we formally extend the dead-end theory from the recent reinforcement learning (RL) literature to also cover uncertain outcomes. Our approach, called rectification, utilizes a separate but significantly smaller model for detoxification, which can be applied to diverse LLMs as long as they share the same vocabulary. Importantly, our method does not require access to the internal representations of the LLM, but only the token probability distribution at each decoding step. This is crucial as many LLMs today are hosted in servers and only accessible through APIs. When applied to various LLMs, including GPT-3, our approach significantly improves the generated discourse compared to the base LLMs and other techniques in terms of both the overall language and detoxification performance.

arxiv情報

著者 Meng Cao,Mehdi Fatemi,Jackie Chi Kit Cheung,Samira Shabanian
発行日 2023-02-27 17:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク