AI-generated Text Detection with a GLTR-based Approach

要約

LLMS(大規模な言語モデル)の台頭は、最先端のNLPアプリケーションのパフォーマンスと開発の改善に貢献しています。
ただし、これらは、偽のニュースの広がり、有害なコンテンツ、個人になりすまし、学校の盗作を促進するなど、悪意を持って使用するとリスクをもたらす可能性があります。
これは、LLMが高品質のテキストを生成できるためです。これは、人間によって書かれたものと区別するのが困難です。
GLTRは、巨大な言語モデルのテストルームの略で、MIT-IBM Watson AI LabとHarvardnlpが共同で開発したもので、GPT-2に基づいて機械で生成されたテキストを検出するのに役立つ視覚ツールであり、テキストの単語を強調しています。
それらが機械で生成された可能性について。
GLTRの制限の1つは、返される結果が曖昧で混乱につながることがあることです。
この研究の目的は、英語とスペイン語の両方の言語で、Iberlef-autextification 2023共有タスクのコンテキスト内で、AI生成されたテキストを検出するためのGLTRの有効性を改善するためのさまざまな方法を探求することを目的としています。
実験結果は、GLTRベースのGPT-2モデルが、最初のランキングモデル(80.91%)を除き、マクロF1スコアの80.19%で英語データセットの最先端モデルを克服していることを示しています。
ただし、スペインのデータセットでは、66.20%のマクロF1スコアを取得しました。これは、最高のパフォーマンスモデルと比較して4.57%異なります。

要約(オリジナル)

The rise of LLMs (Large Language Models) has contributed to the improved performance and development of cutting-edge NLP applications. However, these can also pose risks when used maliciously, such as spreading fake news, harmful content, impersonating individuals, or facilitating school plagiarism, among others. This is because LLMs can generate high-quality texts, which are challenging to differentiate from those written by humans. GLTR, which stands for Giant Language Model Test Room and was developed jointly by the MIT-IBM Watson AI Lab and HarvardNLP, is a visual tool designed to help detect machine-generated texts based on GPT-2, that highlights the words in text depending on the probability that they were machine-generated. One limitation of GLTR is that the results it returns can sometimes be ambiguous and lead to confusion. This study aims to explore various ways to improve GLTR’s effectiveness for detecting AI-generated texts within the context of the IberLef-AuTexTification 2023 shared task, in both English and Spanish languages. Experiment results show that our GLTR-based GPT-2 model overcomes the state-of-the-art models on the English dataset with a macro F1-score of 80.19%, except for the first ranking model (80.91%). However, for the Spanish dataset, we obtained a macro F1-score of 66.20%, which differs by 4.57% compared to the top-performing model.

arxiv情報

著者 Lucía Yan Wu,Isabel Segura-Bedmar
発行日 2025-02-17 17:32:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク