要約
大規模言語モデル(LLM)の急速な普及により、機械生成テキスト(MGT)の量が増加し、様々な領域でテキストのオーサーシップが曖昧になっている。しかし、既存のMGTベンチマークのほとんどは、単一著者のテキスト(人間が書いたものと機械が生成したもの)を含んでいる。この従来の設計では、ユーザが自然な流れ、一貫性、事実の正しさのためにLLM応答を洗練させる、より実用的な複数著者のシナリオを捉えることができない。このベンチマークは、人間が書いた6.5kの文章を、10個の命令調整型LLMが生成し、専門家が編集したもので、創作から要約まで様々なユースケースに対応している。Beemoはさらに、13.1kの機械で生成されLLMで編集されたテキストから構成され、様々な編集タイプにおける多様なMGT検出の評価を可能にしている。我々はBeemoの作成プロトコルを文書化し、異なる実験セットアップで33構成のMGT検出器をベンチマークした結果を示す。専門家による編集はMGT検出を回避し、LLMで編集されたテキストは人間が書いたと認識されにくいことがわかった。Beemoと全ての資料は公開されている。
要約(オリジナル)
The rapid proliferation of large language models (LLMs) has increased the volume of machine-generated texts (MGTs) and blurred text authorship in various domains. However, most existing MGT benchmarks include single-author texts (human-written and machine-generated). This conventional design fails to capture more practical multi-author scenarios, where the user refines the LLM response for natural flow, coherence, and factual correctness. Our paper introduces the Benchmark of Expert-edited Machine-generated Outputs (Beemo), which includes 6.5k texts written by humans, generated by ten instruction-finetuned LLMs, and edited by experts for various use cases, ranging from creative writing to summarization. Beemo additionally comprises 13.1k machine-generated and LLM-edited texts, allowing for diverse MGT detection evaluation across various edit types. We document Beemo’s creation protocol and present the results of benchmarking 33 configurations of MGT detectors in different experimental setups. We find that expert-based editing evades MGT detection, while LLM-edited texts are unlikely to be recognized as human-written. Beemo and all materials are publicly available.
arxiv情報
著者 | Ekaterina Artemova,Jason Lucas,Saranya Venkatraman,Jooyoung Lee,Sergei Tilga,Adaku Uchendu,Vladislav Mikhailov |
発行日 | 2025-02-04 16:05:26+00:00 |
arxivサイト | arxiv_id(pdf) |