要約
多くの商用およびオープンソース モデルは、機械生成されたテキストを非常に高い精度 (99% 以上) で検出すると主張しています。
ただし、これらの検出器のうち共有ベンチマーク データセットで評価されているものはほとんどなく、たとえ評価に使用されているデータセットには、サンプリング戦略、敵対的攻撃、オープンソースの生成モデルのバリエーションが不足していて、挑戦が不十分です。
この研究では、機械生成されたテキスト検出のための最大かつ最も困難なベンチマーク データセットである RAID を紹介します。
RAID には、11 のモデル、8 つのドメイン、11 の敵対的攻撃、および 4 つのデコード戦略にわたる 600 万を超える世代が含まれています。
RAID を使用して、8 つのオープンソース検出器と 4 つのクローズドソース検出器のドメイン外および敵対的堅牢性を評価したところ、現在の検出器は敵対的攻撃、サンプリング戦略のバリエーション、反復ペナルティ、および目に見えない生成モデルによって簡単にだまされてしまうことがわかりました。
今後の研究を促進するために、リーダーボードとともにデータを公開します。
要約(オリジナル)
Many commercial and open-source models claim to detect machine-generated text with extremely high accuracy (99% or more). However, very few of these detectors are evaluated on shared benchmark datasets and even when they are, the datasets used for evaluation are insufficiently challenging-lacking variations in sampling strategy, adversarial attacks, and open-source generative models. In this work we present RAID: the largest and most challenging benchmark dataset for machine-generated text detection. RAID includes over 6 million generations spanning 11 models, 8 domains, 11 adversarial attacks and 4 decoding strategies. Using RAID, we evaluate the out-of-domain and adversarial robustness of 8 open- and 4 closed-source detectors and find that current detectors are easily fooled by adversarial attacks, variations in sampling strategies, repetition penalties, and unseen generative models. We release our data along with a leaderboard to encourage future research.
arxiv情報
著者 | Liam Dugan,Alyssa Hwang,Filip Trhlik,Josh Magnus Ludan,Andrew Zhu,Hainiu Xu,Daphne Ippolito,Chris Callison-Burch |
発行日 | 2024-06-10 15:51:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google