Stylometry Analysis of Multi-authored Documents for Authorship and Author Style Change Detection

要約

近年、人工知能ベースのテキスト生成ツールの使用が増加しているため、文書の出所、認証、および著者の検出において新たな課題が生じています。
ただし、スタイロメトリーの進歩により、スタイル分析技術を使用して、複数著者の文書における著者名と著者の変更を自動的に検出する機会が提供されました。
スタイル分析は、著者の検出による文書の出所と認証に向けた主要なステップとして機能します。
この論文では、スタイル分析の 3 つの重要なタスクを調査します。(i) 単一著者文書と複数著者文書の分類、(ii) 単一の変更の検出 (著者が切り替わるポイントの特定を含む)、および (iii) 複数の文書における複数の著者の切り替えの検出
-著者の文書。
私たちは 3 つのタスクすべてを分類問題として定式化し、いくつかの最先端の自然言語処理 (NLP) アルゴリズムと重み最適化手法を統合するメリットベースの融合フレームワークを提案します。
また、クリーンなデータセットと生のデータセットの両方で広範な実験を行うことにより、これらのタスクに対して提案された手法のパフォーマンスに影響を与える特殊文字 (NLP アプリケーションの前処理中に通常は削除される) の可能性を調査します。
実験結果は、ベンチマーク データセット上の 3 つのタスクすべてについて、既存のソリューションに比べて大幅な改善が示されています。

要約(オリジナル)

In recent years, the increasing use of Artificial Intelligence based text generation tools has posed new challenges in document provenance, authentication, and authorship detection. However, advancements in stylometry have provided opportunities for automatic authorship and author change detection in multi-authored documents using style analysis techniques. Style analysis can serve as a primary step toward document provenance and authentication through authorship detection. This paper investigates three key tasks of style analysis: (i) classification of single and multi-authored documents, (ii) single change detection, which involves identifying the point where the author switches, and (iii) multiple author-switching detection in multi-authored documents. We formulate all three tasks as classification problems and propose a merit-based fusion framework that integrates several state-of-the-art natural language processing (NLP) algorithms and weight optimization techniques. We also explore the potential of special characters, which are typically removed during pre-processing in NLP applications, on the performance of the proposed methods for these tasks by conducting extensive experiments on both cleaned and raw datasets. Experimental results demonstrate significant improvements over existing solutions for all three tasks on a benchmark dataset.

arxiv情報

著者 Muhammad Tayyab Zamir,Muhammad Asif Ayub,Asma Gul,Nasir Ahmad,Kashif Ahmad
発行日 2024-01-12 18:36:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク