Oldies but Goldies: The Potential of Character N-grams for Romanian Texts

要約

この研究では、フィールドの標準的なベンチマークであるROSTコーパスを使用したルーマニアのテキストの著者の帰属の問題に対処しています。
サポートベクターマシン(SVM)、ロジスティック回帰(LR)、K-NEARest Neighbors(K-NN)、Decision Trees(DT)、ランダムフォレスト(RF)、および人工ニューラルネットワーク(ANN)の6つの機械学習手法を体系的に評価します。
これらの中で、ANNモデルは、5グラム機能を使用するときに15回のランのうち4回の完全な分類を含む、最高のパフォーマンスを達成しました。
これらの結果は、軽量で解釈可能なキャラクターN-GRAMアプローチが、より複雑な方法に匹敵するルーマニアの著者の帰属に最先端の精度を提供できることを示しています。
私たちの調査結果は、リソース、制約された言語設定または不足している言語設定における単純なスタイロメトリック機能の可能性を強調しています。

要約(オリジナル)

This study addresses the problem of authorship attribution for Romanian texts using the ROST corpus, a standard benchmark in the field. We systematically evaluate six machine learning techniques: Support Vector Machine (SVM), Logistic Regression (LR), k-Nearest Neighbors (k-NN), Decision Trees (DT), Random Forests (RF), and Artificial Neural Networks (ANN), employing character n-gram features for classification. Among these, the ANN model achieved the highest performance, including perfect classification in four out of fifteen runs when using 5-gram features. These results demonstrate that lightweight, interpretable character n-gram approaches can deliver state-of-the-art accuracy for Romanian authorship attribution, rivaling more complex methods. Our findings highlight the potential of simple stylometric features in resource, constrained or under-studied language settings.

arxiv情報

著者 Dana Lupsa,Sanda-Maria Avram
発行日 2025-06-18 17:28:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク