MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark

要約

英語以外の言語で説得力のあるテキストを生成する最近の LLM の機能や、多言語設定における機械生成テキストの検出器のパフォーマンスに関する研究は不足しています。
これは、利用可能なベンチマークにも反映されており、英語以外の言語での本物のテキストが不足しており、主に古いジェネレーターをカバーしています。
このギャップを埋めるために、11 言語 (ar、ca、cs、de、en、es、nl、pt、ru) の 74,081 の本物の機械生成テキストで構成される、多言語機械生成テキスト検出用の新しいベンチマーク データセット MULTITuDE を導入します。
、uk、zh) 8 つの多言語 LLM によって生成されます。
このベンチマークを使用して、ゼロショット (統計およびブラックボックス) 検出器と微調整検出器のパフォーマンスを比較します。
多言語性を考慮して、1) これらの検出器が未知の言語 (言語的に似ているだけでなく似ていない) および未知の LLM にどのように一般化するか、2) 複数の言語でトレーニングされたときに検出器のパフォーマンスが向上するかどうかを評価します。

要約(オリジナル)

There is a lack of research into capabilities of recent LLMs to generate convincing text in languages other than English and into performance of detectors of machine-generated text in multilingual settings. This is also reflected in the available benchmarks which lack authentic texts in languages other than English and predominantly cover older generators. To fill this gap, we introduce MULTITuDE, a novel benchmarking dataset for multilingual machine-generated text detection comprising of 74,081 authentic and machine-generated texts in 11 languages (ar, ca, cs, de, en, es, nl, pt, ru, uk, and zh) generated by 8 multilingual LLMs. Using this benchmark, we compare the performance of zero-shot (statistical and black-box) and fine-tuned detectors. Considering the multilinguality, we evaluate 1) how these detectors generalize to unseen languages (linguistically similar as well as dissimilar) and unseen LLMs and 2) whether the detectors improve their performance when trained on multiple languages.

arxiv情報

著者 Dominik Macko,Robert Moro,Adaku Uchendu,Jason Samuel Lucas,Michiharu Yamashita,Matúš Pikuliak,Ivan Srba,Thai Le,Dongwon Lee,Jakub Simko,Maria Bielikova
発行日 2023-10-20 15:57:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク