Performance Trade-offs of Watermarking Large Language Models

要約

大規模言語モデル (LLM) が誤った情報の生成や宿題の完了に悪用されるのではないかという懸念が高まる中、透かしは人間が書いたテキストと LLM が生成したテキストを区別するための効果的なソリューションとして浮上しました。
顕著な透かし戦略は、各生成ステップで (擬似ランダムに選択された) トークンのサブセットをアップサンプリングすることによって、生成されたテキストに信号を埋め込むことです。
この信号は人間の読者には感知されませんが、統計的テストを通じて検出可能です。
ただし、このような信号を埋め込むとモデルの出力分布が変化し、透かし入り LLM がダウンストリーム アプリケーションに使用される場合に意図しない影響が生じる可能性があります。
この研究では、テキストの分類、テキストの含意、推論、質問応答、翻訳、要約、言語モデリングなど、さまざまなタスクで透かし入り LLM のパフォーマンスを評価します。
平均的な場合、透かしは k クラス分類問題として提示されたタスクのパフォーマンスにほとんど影響を与えないことがわかりました。
ただし、一部のシナリオ (無視できない確率で発生する) では、精度がランダム分類器の精度まで低下する可能性があります。
多肢選択式の質問や短い形式の生成として割り当てられたタスクは、驚くほど透かしの影響を受けません。
要約や翻訳などの長い形式の生成タスクでは、ウォーターマークによりパフォーマンスが 15 ~ 20% 低下することがわかります。
私たちの調査結果は、透かし入りモデルを使用するときにユーザーが認識すべきトレードオフを強調し、将来の研究によって既存のトレードオフが改善される可能性があるケースを示しています。

要約(オリジナル)

Amidst growing concerns of large language models (LLMs) being misused for generating misinformation or completing homework assignments, watermarking has emerged as an effective solution for distinguishing human-written and LLM-generated text. A prominent watermarking strategy is to embed a signal into generated text by upsampling a (pseudorandomly-chosen) subset of tokens at every generation step. Although this signal is imperceptible to a human reader, it is detectable through statistical testing. However, implanting such signals alters the model’s output distribution and can have unintended effects when watermarked LLMs are used for downstream applications. In this work, we evaluate the performance of watermarked LLMs on a diverse suite of tasks, including text classification, textual entailment, reasoning, question answering, translation, summarization, and language modeling. We find that watermarking has negligible impact on the performance of tasks posed as k-class classification problems in the average case. However, the accuracy can plummet to that of a random classifier for some scenarios (that occur with non-negligible probability). Tasks that are cast as multiple-choice questions and short-form generation are surprisingly unaffected by watermarking. For long-form generation tasks, including summarization and translation, we see a drop of 15-20% in the performance due to watermarking. Our findings highlight the trade-offs that users should be cognizant of when using watermarked models, and point to cases where future research could improve existing trade-offs.

arxiv情報

著者 Anirudh Ajith,Sameer Singh,Danish Pruthi
発行日 2023-11-16 11:44:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク