Paraphrase Detection: Human vs. Machine Content

要約

GPT-4 や ChatGPT などの大規模な言語モデルが注目を集めるようになったことで、機械で生成されたコンテンツや言い換えの可能性があるため、学問的整合性に対する懸念が高まっています。
研究では、人間と機械が言い換えたコンテンツの検出を調査してきましたが、これらのタイプのコンテンツの比較はまだ調査されていません。
この論文では、言い換え検出タスクに一般的に使用されるさまざまなデータセットの包括的な分析を行い、一連の検出方法を評価します。
私たちの調査結果は、個々のデータセットのパフォーマンスの観点から、さまざまな検出方法の長所と制限を強調しており、人間の期待に合わせることができる適切な機械生成データセットの欠如を明らかにしています。
私たちの主な発見は、人間が作成した言い換えは、難易度、多様性、および類似性の点で機械生成のものを上回っていることであり、自動生成されたテキストはまだ人間レベルのパフォーマンスと同等ではないことを示唆しています.
トランスフォーマーは、意味的に多様なコーパスに優れた TF-IDF を使用して、データセット全体で最も効果的な方法として浮上しました。
さらに、4 つのデータセットが最も多様であり、言い換えの検出が困難であると特定します。

要約(オリジナル)

The growing prominence of large language models, such as GPT-4 and ChatGPT, has led to increased concerns over academic integrity due to the potential for machine-generated content and paraphrasing. Although studies have explored the detection of human- and machine-paraphrased content, the comparison between these types of content remains underexplored. In this paper, we conduct a comprehensive analysis of various datasets commonly employed for paraphrase detection tasks and evaluate an array of detection methods. Our findings highlight the strengths and limitations of different detection methods in terms of performance on individual datasets, revealing a lack of suitable machine-generated datasets that can be aligned with human expectations. Our main finding is that human-authored paraphrases exceed machine-generated ones in terms of difficulty, diversity, and similarity implying that automatically generated texts are not yet on par with human-level performance. Transformers emerged as the most effective method across datasets with TF-IDF excelling on semantically diverse corpora. Additionally, we identify four datasets as the most diverse and challenging for paraphrase detection.

arxiv情報

著者 Jonas Becker,Jan Philip Wahle,Terry Ruas,Bela Gipp
発行日 2023-03-24 13:25:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク