StyloAI: Distinguishing AI-Generated Content with Stylometric Analysis

要約

リアルなテキストや画像を生成できる大規模言語モデル (LLM) の出現により、さまざまな分野で倫理的な懸念が生じています。
これに応えて、学界や産業界の研究者は、AI が生成したコンテンツと人間が作成したコンテンツを区別する方法を積極的に研究しています。
ただし、AI が生成したテキストにはどのような特徴があるのでしょうか?という重要な疑問が残ります。
このギャップに対処するために、この研究では StyloAI を提案します。これは、2 つのマルチドメイン データセットにランダム フォレスト分類器を適用することで、31 のスタイロメトリック特徴を使用して AI によって生成されたテキストを識別するデータ駆動型モデルです。
StyloAI は、AuTextification データセットと Education データセットのテスト セットでそれぞれ 81% と 98% の精度率を達成しました。
このアプローチは、既存の最先端モデルのパフォーマンスを上回り、AI が生成したテキストと人間が作成したテキストの違いについての貴重な洞察を提供します。

要約(オリジナル)

The emergence of large language models (LLMs) capable of generating realistic texts and images has sparked ethical concerns across various sectors. In response, researchers in academia and industry are actively exploring methods to distinguish AI-generated content from human-authored material. However, a crucial question remains: What are the unique characteristics of AI-generated text? Addressing this gap, this study proposes StyloAI, a data-driven model that uses 31 stylometric features to identify AI-generated texts by applying a Random Forest classifier on two multi-domain datasets. StyloAI achieves accuracy rates of 81% and 98% on the test set of the AuTextification dataset and the Education dataset, respectively. This approach surpasses the performance of existing state-of-the-art models and provides valuable insights into the differences between AI-generated and human-authored texts.

arxiv情報

著者 Chidimma Opara
発行日 2024-05-16 14:28:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク