Sharif-MGTD at SemEval-2024 Task 8: A Transformer-Based Approach to Detect Machine Generated Text

要約

機械生成テキスト (MGT) の検出は、自然言語処理の重要な研究分野として浮上しています。
言語モデルはテキストを生成しますが、多くの場合、識別可能な痕跡を残します。これは、従来の機能ベースの方法またはより高度なニューラル言語モデルのいずれかを使用して精査できます。
この研究では、バイナリ分類タスクとして MGT 検出に対処するために、強力なニューラル アーキテクチャである RoBERTa ベースのトランスフォーマーを微調整する有効性を調査します。
SemEval-2024 コンテストの枠組み内のサブタスク A (単一言語-英語) に特に焦点を当てた場合、私たちが提案したシステムはテスト データセットで 78.9% の精度を達成し、参加者中 57 位にランクされました。
私たちの研究では、限られたハードウェア リソースを考慮しながらこの課題に対処し、その結果、人間が書いたテキストの識別には優れたシステムが完成しましたが、MGT を正確に識別する際には課題に直面しました。

要約(オリジナル)

Detecting Machine-Generated Text (MGT) has emerged as a significant area of study within Natural Language Processing. While language models generate text, they often leave discernible traces, which can be scrutinized using either traditional feature-based methods or more advanced neural language models. In this research, we explore the effectiveness of fine-tuning a RoBERTa-base transformer, a powerful neural architecture, to address MGT detection as a binary classification task. Focusing specifically on Subtask A (Monolingual-English) within the SemEval-2024 competition framework, our proposed system achieves an accuracy of 78.9% on the test dataset, positioning us at 57th among participants. Our study addresses this challenge while considering the limited hardware resources, resulting in a system that excels at identifying human-written texts but encounters challenges in accurately discerning MGTs.

arxiv情報

著者 Seyedeh Fatemeh Ebrahimi,Karim Akhavan Azari,Amirmasoud Iravani,Arian Qazvini,Pouya Sadeghi,Zeinab Sadat Taghavi,Hossein Sameti
発行日 2024-07-16 14:33:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク