LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection

要約

大規模言語モデル (LLM) が一般の人々に広くアクセスできるようになったことで、機械生成テキスト (MGT) の普及が大幅に促進されました。
プロンプト操作の進歩により、テキストの出所 (人間が作成したものと機械が作成したもの) を識別することがさらに困難になりました。
このことは、特に教育および学術分野における MGT の潜在的な悪用に関する懸念を引き起こします。
この論文では、きめ細かい MGT 検出のために設計されたシステム $\textbf{LLM-DetectAIve}$ を紹介します。
テキストを人間が書いたもの、機械が生成したもの、機械が書いたものを人間化したもの、人間が書いたものを機械で洗練したものの 4 つのカテゴリに分類できます。
バイナリ分類を実行する以前の MGT 検出器とは対照的に、LLM-DetectiAIve に 2 つの追加カテゴリを導入することで、テキスト作成中のさまざまな程度の LLM 介入についての洞察が得られます。
これは、LLM 介入が通常禁止されている教育などの一部の領域で役立つ可能性があります。
実験では、LLM-DetectAIve がテキスト コンテンツの著作者を効果的に識別できることが示され、教育、学術、その他の分野における完全性を高める上でその有用性が証明されました。
LLM-DetectAIve は、https://huggingface.co/spaces/raj-tomar001/MGT-New で公開されています。
当社のシステムを説明するビデオは https://youtu.be/E8eT_bE7k8c でご覧いただけます。

要約(オリジナル)

The widespread accessibility of large language models (LLMs) to the general public has significantly amplified the dissemination of machine-generated texts (MGTs). Advancements in prompt manipulation have exacerbated the difficulty in discerning the origin of a text (human-authored vs machinegenerated). This raises concerns regarding the potential misuse of MGTs, particularly within educational and academic domains. In this paper, we present $\textbf{LLM-DetectAIve}$ — a system designed for fine-grained MGT detection. It is able to classify texts into four categories: human-written, machine-generated, machine-written machine-humanized, and human-written machine-polished. Contrary to previous MGT detectors that perform binary classification, introducing two additional categories in LLM-DetectiAIve offers insights into the varying degrees of LLM intervention during the text creation. This might be useful in some domains like education, where any LLM intervention is usually prohibited. Experiments show that LLM-DetectAIve can effectively identify the authorship of textual content, proving its usefulness in enhancing integrity in education, academia, and other domains. LLM-DetectAIve is publicly accessible at https://huggingface.co/spaces/raj-tomar001/MGT-New. The video describing our system is available at https://youtu.be/E8eT_bE7k8c.

arxiv情報

著者 Mervat Abassy,Kareem Elozeiri,Alexander Aziz,Minh Ngoc Ta,Raj Vardhan Tomar,Bimarsha Adhikari,Saad El Dine Ahmed,Yuxia Wang,Osama Mohammed Afzal,Zhuohan Xie,Jonibek Mansurov,Ekaterina Artemova,Vladislav Mikhailov,Rui Xing,Jiahui Geng,Hasan Iqbal,Zain Muhammad Mujahid,Tarek Mahmoud,Akim Tsvigun,Alham Fikri Aji,Artem Shelmanov,Nizar Habash,Iryna Gurevych,Preslav Nakov
発行日 2024-08-08 07:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク