Can Large Language Models Identify Authorship?

要約

著者を正確に特定する機能は、コンテンツの信頼性を検証し、誤った情報を軽減するために重要です。
大規模言語モデル (LLM) は、推論と問題解決において優れた能力を実証しています。
ただし、著者情報分析におけるその可能性はまだ十分に研究されていません。
従来の研究は手作りの文体特徴に依存していましたが、最先端のアプローチでは事前トレーニングされた言語モデルからのテキスト埋め込みが活用されています。
これらの方法は通常、ラベル付きデータの微調整が必​​要ですが、クロスドメイン アプリケーションではパフォーマンスが低下することが多く、説明可能性が限られています。
この研究では、次の 3 つの研究課題に対処することを目指しています。 (1) LLM は、ゼロショットのエンドツーエンドの著者証明を効果的に実行できますか?
(2) LLM は、複数の著者候補 (例: 10 名と 20 名) の間で著者名を正確に帰属させることができますか?
(3) LLM は、特に言語的特徴の役割を通じて、著者分析において説明可能性を提供できますか?
さらに、LLM の推論プロセスをガイドするための明示的な言語特徴の統合を調査します。
私たちの評価は、ドメイン固有の微調整を必要とせずに両方のタスクにおける LLM の習熟度を実証し、言語的特徴の詳細な分析を通じて意思決定の説明を提供します。
これにより、LLM ベースの著者情報分析に関する将来の研究のための新しいベンチマークが確立されます。

要約(オリジナル)

The ability to accurately identify authorship is crucial for verifying content authenticity and mitigating misinformation. Large Language Models (LLMs) have demonstrated an exceptional capacity for reasoning and problem-solving. However, their potential in authorship analysis remains under-explored. Traditional studies have depended on hand-crafted stylistic features, whereas state-of-the-art approaches leverage text embeddings from pre-trained language models. These methods, which typically require fine-tuning on labeled data, often suffer from performance degradation in cross-domain applications and provide limited explainability. This work seeks to address three research questions: (1) Can LLMs perform zero-shot, end-to-end authorship verification effectively? (2) Are LLMs capable of accurately attributing authorship among multiple candidates authors (e.g., 10 and 20)? (3) Can LLMs provide explainability in authorship analysis, particularly through the role of linguistic features? Moreover, we investigate the integration of explicit linguistic features to guide LLMs in their reasoning processes. Our assessment demonstrates LLMs’ proficiency in both tasks without the need for domain-specific fine-tuning, providing explanations into their decision making via a detailed analysis of linguistic features. This establishes a new benchmark for future research on LLM-based authorship analysis.

arxiv情報

著者 Baixiang Huang,Canyu Chen,Kai Shu
発行日 2024-10-22 17:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク