要約
大規模な言語モデル(LLMS)の急速な増殖により、機械で生成されたテキスト(MGT)の量が増加し、さまざまなドメインでテキスト著者がぼやけました。
ただし、ほとんどの既存のMGTベンチマークには、単一の著者テキスト(人間が書かれた機械で生成された)が含まれます。
この従来の設計では、より実用的なマルチオーソルシナリオをキャプチャすることができません。ユーザーは、自然の流れ、コヒーレンス、および事実上の正確性のLLM応答を改良します。
私たちの論文では、人間によって書かれた6.5kのテキストを含む専門家編集された機械で生成された出力(BEEMO)のベンチマークを紹介し、10個の命令定められたLLMによって生成され、創造的な執筆から要約に至るまで、さまざまなユースケースのために専門家によって編集されました。
さらに、Beemoは13.1kの機械で生成されたLLM編集されたテキストで構成され、さまざまな編集タイプで多様なMGT検出評価を可能にします。
Beemoの作成プロトコルを文書化し、さまざまな実験セットアップでMGT検出器の33の構成をベンチマークする結果を提示します。
専門家ベースの編集はMGT検出を回避し、LLM編集されたテキストは人間が書かれたものとして認識される可能性は低いことがわかります。
Beemoとすべての材料は公開されています。
要約(オリジナル)
The rapid proliferation of large language models (LLMs) has increased the volume of machine-generated texts (MGTs) and blurred text authorship in various domains. However, most existing MGT benchmarks include single-author texts (human-written and machine-generated). This conventional design fails to capture more practical multi-author scenarios, where the user refines the LLM response for natural flow, coherence, and factual correctness. Our paper introduces the Benchmark of Expert-edited Machine-generated Outputs (Beemo), which includes 6.5k texts written by humans, generated by ten instruction-finetuned LLMs, and edited by experts for various use cases, ranging from creative writing to summarization. Beemo additionally comprises 13.1k machine-generated and LLM-edited texts, allowing for diverse MGT detection evaluation across various edit types. We document Beemo’s creation protocol and present the results of benchmarking 33 configurations of MGT detectors in different experimental setups. We find that expert-based editing evades MGT detection, while LLM-edited texts are unlikely to be recognized as human-written. Beemo and all materials are publicly available.
arxiv情報
著者 | Ekaterina Artemova,Jason Lucas,Saranya Venkatraman,Jooyoung Lee,Sergei Tilga,Adaku Uchendu,Vladislav Mikhailov |
発行日 | 2025-03-17 12:05:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google