要約
大規模言語モデル(LLM)の人気が高まるにつれ、機械生成テキスト(MGT)、特に剽窃や誤報のような問題が蔓延している学術的な環境における機械生成テキスト(MGT)に対する懸念が高まっている。その結果、汎用性が高く適応性の高いMGT検出システムの開発が急務となっている。LLMがアカデミック・ライティングにおいて最も一般的に誤用されることを考慮し、本研究ではアカデミック・ライティングに特化した3つの重要な側面におけるMGT検出器の汎化と適応能力を調査する:第一に、336M以上のトークンと749Kのサンプルからなる大規模データセット、MGT-Acedemicを構築する。MGT-Acedemicはアカデミックライティングに焦点を当て、STEM、人文科学、社会科学にわたる人間が書いたテキスト(HWT)とMGTを含み、効率的なベンチマークのための拡張可能なコードフレームワークと組み合わされている。第二に、バイナリ分類と帰属タスクに対する様々な検出器の性能を、インドメインとクロスドメインの両方でベンチマークする。このベンチマークにより、しばしば見落とされがちな帰属タスクの課題が明らかになる。第三に、数ショット及び多ショットシナリオの両方において、モデルが事前の訓練データにアクセスすることなく(あるいは非常に限定された状態で)時間の経過とともに新しいクラスに適応しなければならない、新しい帰属タスクを導入する。我々は、性能を向上させ、タスクの本質的な複雑さを強調するために、8つの異なる適応技術を実装する。我々の発見は、多様なシナリオにわたるMGT検出器の汎化と適応能力に関する洞察を提供し、頑健で適応的な検出システムを構築するための基礎を築く。コードフレームワークはhttps://github.com/Y-L-LIU/MGTBench-2.0。
要約(オリジナル)
The rising popularity of large language models (LLMs) has raised concerns about machine-generated text (MGT), particularly in academic settings, where issues like plagiarism and misinformation are prevalent. As a result, developing a highly generalizable and adaptable MGT detection system has become an urgent priority. Given that LLMs are most commonly misused in academic writing, this work investigates the generalization and adaptation capabilities of MGT detectors in three key aspects specific to academic writing: First, we construct MGT-Acedemic, a large-scale dataset comprising over 336M tokens and 749K samples. MGT-Acedemic focuses on academic writing, featuring human-written texts (HWTs) and MGTs across STEM, Humanities, and Social Sciences, paired with an extensible code framework for efficient benchmarking. Second, we benchmark the performance of various detectors for binary classification and attribution tasks in both in-domain and cross-domain settings. This benchmark reveals the often-overlooked challenges of attribution tasks. Third, we introduce a novel attribution task where models have to adapt to new classes over time without (or with very limited) access to prior training data in both few-shot and many-shot scenarios. We implement eight different adapting techniques to improve the performance and highlight the inherent complexity of the task. Our findings provide insights into the generalization and adaptation ability of MGT detectors across diverse scenarios and lay the foundation for building robust, adaptive detection systems. The code framework is available at https://github.com/Y-L-LIU/MGTBench-2.0.
arxiv情報
著者 | Yule Liu,Zhiyuan Zhong,Yifan Liao,Zhen Sun,Jingyi Zheng,Jiaheng Wei,Qingyuan Gong,Fenghua Tong,Yang Chen,Yang Zhang,Xinlei He |
発行日 | 2025-03-03 03:08:43+00:00 |
arxivサイト | arxiv_id(pdf) |