ConDA: Contrastive Domain Adaptation for AI-generated Text Detection

要約

大規模言語モデル (LLM) は、ジャーナリズム記事などのさまざまなユースケースでテキストを生成するために使用されることが増えています。
これらの LLM が偽情報を大規模に生成するために使用される可能性がある潜在的な悪意を考慮すると、このような AI 生成テキストに対する効果的な検出器を構築することが重要です。
新しい LLM の開発が急増していることを考えると、教師あり検出器のラベル付きトレーニング データを取得することがボトルネックになっています。
ただし、ラベルのないテキスト データが大量に存在し、それがどのジェネレーターから来たのかに関する情報が得られない可能性があります。
この研究では、AI が生成したニュース テキストを検出する際にこのデータの問題に取り組み、この問題を教師なしドメイン適応タスクとして組み立てます。
ここで、ドメインはさまざまなテキスト ジェネレーター、つまり LLM であり、ラベル付きソース データとラベルなしターゲット データのみにアクセスできると仮定します。
私たちは、標準的なドメイン適応技術と対照学習の表現力を組み合わせて、最終的な教師なし検出タスクに有効なドメイン不変表現を学習する、ConDA と呼ばれる対比ドメイン適応フレームワークを開発します。
私たちの実験では、フレームワークの有効性が実証されており、最高のパフォーマンスのベースラインから平均 31.7% のパフォーマンス向上が得られ、完全に監視された検出器のマージンは 0.8% 以内でした。
すべてのコードとデータは https://github.com/AmritaBh/ConDA-gen-text-detection で入手できます。

要約(オリジナル)

Large language models (LLMs) are increasingly being used for generating text in a variety of use cases, including journalistic news articles. Given the potential malicious nature in which these LLMs can be used to generate disinformation at scale, it is important to build effective detectors for such AI-generated text. Given the surge in development of new LLMs, acquiring labeled training data for supervised detectors is a bottleneck. However, there might be plenty of unlabeled text data available, without information on which generator it came from. In this work we tackle this data problem, in detecting AI-generated news text, and frame the problem as an unsupervised domain adaptation task. Here the domains are the different text generators, i.e. LLMs, and we assume we have access to only the labeled source data and unlabeled target data. We develop a Contrastive Domain Adaptation framework, called ConDA, that blends standard domain adaptation techniques with the representation power of contrastive learning to learn domain invariant representations that are effective for the final unsupervised detection task. Our experiments demonstrate the effectiveness of our framework, resulting in average performance gains of 31.7% from the best performing baselines, and within 0.8% margin of a fully supervised detector. All our code and data is available at https://github.com/AmritaBh/ConDA-gen-text-detection.

arxiv情報

著者 Amrita Bhattacharjee,Tharindu Kumarage,Raha Moraffah,Huan Liu
発行日 2023-09-07 19:51:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク