Few-Shot Detection of Machine-Generated Text using Style Representations

要約

人間の文章を説得力を持って模倣する、命令に調整された言語モデルの出現は、悪用の重大なリスクをもたらします。
ただし、そのような悪用は、テキストの一部が人間の作成者ではなく言語モデルによって構成されたかどうかを検出する機能によって対抗できる可能性があります。
この問題に対するこれまでのいくつかのアプローチは、人間と機械が書いた確認済み文書のコーパスをトレーニングする教師あり手法に依存していました。
残念ながら、モデルの仕様不足はニューラル ネットワーク ベースの検出器に避けられない課題をもたらし、検出器のトレーニングに使用されたモデルよりもさらに流暢なテキストを生成する新しい言語モデルのリリースなど、データの変化に直面すると検出器を脆弱にしてしまいます。
他のアプローチでは、問題のドキュメントを生成した可能性のあるモデルにアクセスする必要がありますが、これは多くの場合非現実的です。
これらの課題を考慮して、私たちはトレーニング時に懸念される言語モデルからのサンプルに依存しない、根本的に異なるアプローチを追求します。
代わりに、人間が作成したテキストから推定された文体の表現を活用することを提案します。
実際、Llama-2、ChatGPT、GPT-4 などの最先端の大規模言語モデルを含む、人間の作成者を区別するのに効果的な機能は、人間と機械の作成者を区別するのにも効果的であることがわかりました。
さらに、対象となるいくつかの特定の言語モデルのそれぞれによって構成された少数の例を考慮すると、私たちのアプローチにより、どのモデルが特定の文書を生成したかを予測することができます。
実験を再現するためのコードとデータは、https://github.com/LLNL/LUAR/tree/main/fewshot_iclr2024 で入手できます。

要約(オリジナル)

The advent of instruction-tuned language models that convincingly mimic human writing poses a significant risk of abuse. However, such abuse may be counteracted with the ability to detect whether a piece of text was composed by a language model rather than a human author. Some previous approaches to this problem have relied on supervised methods by training on corpora of confirmed human- and machine- written documents. Unfortunately, model under-specification poses an unavoidable challenge for neural network-based detectors, making them brittle in the face of data shifts, such as the release of newer language models producing still more fluent text than the models used to train the detectors. Other approaches require access to the models that may have generated a document in question, which is often impractical. In light of these challenges, we pursue a fundamentally different approach not relying on samples from language models of concern at training time. Instead, we propose to leverage representations of writing style estimated from human-authored text. Indeed, we find that features effective at distinguishing among human authors are also effective at distinguishing human from machine authors, including state-of-the-art large language models like Llama-2, ChatGPT, and GPT-4. Furthermore, given a handful of examples composed by each of several specific language models of interest, our approach affords the ability to predict which model generated a given document. The code and data to reproduce our experiments are available at https://github.com/LLNL/LUAR/tree/main/fewshot_iclr2024.

arxiv情報

著者 Rafael Rivera Soto,Kailin Koch,Aleem Khan,Barry Chen,Marcus Bishop,Nicholas Andrews
発行日 2024-05-08 15:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク