Author-Specific Linguistic Patterns Unveiled: A Deep Learning Study on Word Class Distributions


深層学習手法は、テキスト データのパターンを明らかにするために、計算言語学にますます適用されています。
この研究では、品詞 (POS) タグ付けとバイグラム分析を使用して、著者固有の単語クラスの分布を調査します。
ディープ ニューラル ネットワークを活用することで、作品から得られた POS タグ ベクトルとバイグラム頻度行列に基づいて文学作家を分類します。
私たちは、ユニグラムおよびバイグラムベースの表現の有効性を調査するために、完全に接続された畳み込みニューラル ネットワーク アーキテクチャを採用しています。
多次元スケーリング (MDS) 視覚化により、著者の作品の意味のあるクラスタリングが明らかになり、文体のニュアンスが計算手法を通じて捕捉できるという仮説が裏付けられます。


Deep learning methods have been increasingly applied to computational linguistics to uncover patterns in text data. This study investigates author-specific word class distributions using part-of-speech (POS) tagging and bigram analysis. By leveraging deep neural networks, we classify literary authors based on POS tag vectors and bigram frequency matrices derived from their works. We employ fully connected and convolutional neural network architectures to explore the efficacy of unigram and bigram-based representations. Our results demonstrate that while unigram features achieve moderate classification accuracy, bigram-based models significantly improve performance, suggesting that sequential word class patterns are more distinctive of authorial style. Multi-dimensional scaling (MDS) visualizations reveal meaningful clustering of authors’ works, supporting the hypothesis that stylistic nuances can be captured through computational methods. These findings highlight the potential of deep learning and linguistic feature analysis for author profiling and literary studies.


著者 Patrick Krauss,Achim Schilling
発行日 2025-01-17 09:43:49+00:00
arxiv_id(pdf)

