Classification of Human- and AI-Generated Texts for English, French, German, and Spanish

要約

この論文では、人間が生成したテキストと AI が生成したテキストを英語、フランス語、ドイツ語、スペイン語について分類する特徴を分析し、言語間で比較します。
(1) AI によってゼロから生成されたテキストの検出、および (2) AI によって言い換えられたテキストの検出の 2 つのシナリオを調査します。
この多言語設定で分類器をトレーニングおよびテストするために、言語ごとに 10 のトピックをカバーする新しいテキスト コーパスを作成しました。
AI 生成テキストの検出では、提案されたすべての機能の組み合わせが最も効果的であり、機能が他の関連言語に移植可能であることを示しています。F1 スコアは、スペイン語で 99%、英語で 98%、ドイツ語で 97% と近似しています。
フランス語では95%。
AI によって言い換えられたテキストの検出では、多くの場合、すべての機能を備えたシステムが他の機能を備えたシステムよりも優れたパフォーマンスを発揮しますが、ドイツ語 (72%) とスペイン語 (86%) ではドキュメントの特徴のみを使用した方が最高のパフォーマンスを発揮し、テキスト ベクトルの特徴のみを使用した場合に最高のパフォーマンスが得られます。
英語の結果 (78%)。

要約(オリジナル)

In this paper we analyze features to classify human- and AI-generated text for English, French, German and Spanish and compare them across languages. We investigate two scenarios: (1) The detection of text generated by AI from scratch, and (2) the detection of text rephrased by AI. For training and testing the classifiers in this multilingual setting, we created a new text corpus covering 10 topics for each language. For the detection of AI-generated text, the combination of all proposed features performs best, indicating that our features are portable to other related languages: The F1-scores are close with 99% for Spanish, 98% for English, 97% for German and 95% for French. For the detection of AI-rephrased text, the systems with all features outperform systems with other features in many cases, but using only document features performs best for German (72%) and Spanish (86%) and only text vector features leads to best results for English (78%).

arxiv情報

著者 Kristina Schaaff,Tim Schlippe,Lorenz Mindner
発行日 2023-12-08 07:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク