Latent Space Interpretation for Stylistic Analysis and Explainable Authorship Attribution

要約

最近の最先端の著者帰属方法は、潜在的な解釈不可能な空間でテキストの著者表現を学習するため、現実世界のアプリケーションでの使いやすさを妨げています。
私たちの研究では、潜在空間内の代表的な点を特定し、LLM を利用して各点の文体の有益な自然言語記述を生成することにより、これらの学習された埋め込みを解釈するための新しいアプローチを提案しています。
解釈可能な空間と潜在的な空間の整合性を評価したところ、他のベースラインと比較して最良の予測一致が得られることがわかりました。
さらに、これらのスタイル記述の品質を評価するために人間による評価を実施し、潜在空間の説明としての有用性を検証します。
最後に、システムの説明を利用すると、困難な AA タスクにおける人間のパフォーマンスが向上するかどうかを調査し、精度が平均で約 +20% 向上することがわかりました。

要約(オリジナル)

Recent state-of-the-art authorship attribution methods learn authorship representations of texts in a latent, non-interpretable space, hindering their usability in real-world applications. Our work proposes a novel approach to interpreting these learned embeddings by identifying representative points in the latent space and utilizing LLMs to generate informative natural language descriptions of the writing style of each point. We evaluate the alignment of our interpretable space with the latent one and find that it achieves the best prediction agreement compared to other baselines. Additionally, we conduct a human evaluation to assess the quality of these style descriptions, validating their utility as explanations for the latent space. Finally, we investigate whether human performance on the challenging AA task improves when aided by our system’s explanations, finding an average improvement of around +20% in accuracy.

arxiv情報

著者 Milad Alshomary,Narutatsu Ri,Marianna Apidianaki,Ajay Patel,Smaranda Muresan,Kathleen McKeown
発行日 2024-09-11 07:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク