Raidar: geneRative AI Detection viA Rewriting

要約

大規模言語モデル (LLM) は、書き換えのタスクを課された場合、AI が生成したテキストよりも人間が書いたテキストを変更する可能性が高いことがわかりました。
この傾向は、LLM が AI によって生成されたテキストを高品質であると認識することが多く、変更が少なくなるために起こります。
LLM にテキストの書き換えを促し、出力の編集距離を計算することで、AI によって生成されたコンテンツを検出する方法を紹介します。
私たちは、geneRative AI Detection viA Rewriting メソッドを Raidar と名付けました。
Raidar は、ニュース、クリエイティブ ライティング、学生のエッセイ、コード、Yelp レビュー、arXiv 論文などのさまざまな領域にわたって、学術および商業の両方の既存の AI コンテンツ検出モデルの F1 検出スコアを大幅に向上させ、最大 29 ポイント向上しました。

高次元の特徴を持たない単語シンボルのみを操作するこの手法は、ブラック ボックス LLM と互換性があり、新しいコンテンツに対して本質的に堅牢です。
私たちの結果は、機械自体のレンズを通して機械が生成したテキストの独特の痕跡を示しています。

要約(オリジナル)

We find that large language models (LLMs) are more likely to modify human-written text than AI-generated text when tasked with rewriting. This tendency arises because LLMs often perceive AI-generated text as high-quality, leading to fewer modifications. We introduce a method to detect AI-generated content by prompting LLMs to rewrite text and calculating the editing distance of the output. We dubbed our geneRative AI Detection viA Rewriting method Raidar. Raidar significantly improves the F1 detection scores of existing AI content detection models — both academic and commercial — across various domains, including News, creative writing, student essays, code, Yelp reviews, and arXiv papers, with gains of up to 29 points. Operating solely on word symbols without high-dimensional features, our method is compatible with black box LLMs, and is inherently robust on new content. Our results illustrate the unique imprint of machine-generated text through the lens of the machines themselves.

arxiv情報

著者 Chengzhi Mao,Carl Vondrick,Hao Wang,Junfeng Yang
発行日 2024-01-23 18:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク