要約
情報過多と大規模言語モデル (LLM) による情報の促進が支配的な時代において、誤った情報の蔓延は公共の言論と社会の幸福に重大な脅威をもたらします。
現在の重大な懸念には、機械によって生成されたニュースの特定が含まれます。
この研究では、英語、トルコ語、ハンガリー語、ペルシア語の 4 つの言語でのニューラル ニュース検出用に設計されたベンチマーク データセットを導入することで、重要な一歩を踏み出しました。
このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4 などの複数の多言語ジェネレーター (ゼロショット セットアップと微調整セットアップの両方) からの出力が組み込まれています。
次に、言語特徴に基づいた分類器から、高度な Transformer ベースのモデルや LLM プロンプトに至るまで、さまざまな分類器を試します。
すべてのターゲット言語にわたる機械生成テキスト検出器の解釈可能性と堅牢性を詳しく調べることを目的とした検出結果を紹介します。
要約(オリジナル)
In the era dominated by information overload and its facilitation with Large Language Models (LLMs), the prevalence of misinformation poses a significant threat to public discourse and societal well-being. A critical concern at present involves the identification of machine-generated news. In this work, we take a significant step by introducing a benchmark dataset designed for neural news detection in four languages: English, Turkish, Hungarian, and Persian. The dataset incorporates outputs from multiple multilingual generators (in both, zero-shot and fine-tuned setups) such as BloomZ, LLaMa-2, Mistral, Mixtral, and GPT-4. Next, we experiment with a variety of classifiers, ranging from those based on linguistic features to advanced Transformer-based models and LLMs prompting. We present the detection results aiming to delve into the interpretablity and robustness of machine-generated texts detectors across all target languages.
arxiv情報
著者 | Cem Üyük,Danica Rovó,Shaghayegh Kolli,Rabia Varol,Georg Groh,Daryna Dementieva |
発行日 | 2024-11-04 12:42:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google