ALMs: Authorial Language Models for Authorship Attribution

要約

この論文では、著者言語モデル (ALM) と呼ばれる著者帰属手法を紹介します。この手法では、著作物に基づいて微調整された一連の因果関係言語モデルに対して計算された、問題のある文書の複雑さに基づいて、問題のある文書の作成者である可能性が最も高い人物を特定します。
著者候補のセットの。
CCAT50 データセットと Blogs50 データセットを使用して、ALM を最先端のシステムに対してベンチマークしました。
ALM は、Blogs50 でマクロ平均精度スコア 83.6% を達成し、他のすべての手法を上回り、CCAT50 では 74.9% を達成し、最良の手法のパフォーマンスに匹敵することがわかりました。
短いテキストに対する ALM のパフォーマンスを評価するために、テキスト アブレーション テストも実施しました。
マクロ平均精度 70% に達するには、ALM は Blogs50 で 40 トークン、CCAT50 で 400 トークンが必要ですが、ALM が 60% に達するには、Blogs50 で 20 トークン、CCAT50 で 70 トークンが必要であることがわかりました。

要約(オリジナル)

In this paper, we introduce an authorship attribution method called Authorial Language Models (ALMs) that involves identifying the most likely author of a questioned document based on the perplexity of the questioned document calculated for a set of causal language models fine-tuned on the writings of a set of candidate author. We benchmarked ALMs against state-of-art-systems using the CCAT50 dataset and the Blogs50 datasets. We find that ALMs achieves a macro-average accuracy score of 83.6% on Blogs50, outperforming all other methods, and 74.9% on CCAT50, matching the performance of the best method. To assess the performance of ALMs on shorter texts, we also conducted text ablation testing. We found that to reach a macro-average accuracy of 70%, ALMs needs 40 tokens on Blogs50 and 400 tokens on CCAT50, while to reach 60% ALMs requires 20 tokens on Blogs50 and 70 tokens on CCAT50.

arxiv情報

著者 Weihang Huang,Akira Murakami,Jack Grieve
発行日 2024-01-22 14:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク