Integrated ensemble of BERT- and features-based models for authorship attribution in Japanese literary works

要約

従来、著者の帰属(AA)タスクは、テキストから抽出されたスタイルの特徴に基づいた統計データ分析と分類に依存していました。
近年、事前に訓練された言語モデル(PLMS)は、テキスト分類タスクに大きな注目を集めています。
ただし、大規模なショートテキストデータセットで優れたパフォーマンスを示していますが、その有効性は、特にAAタスクでは、小さなサンプルでは採点されていないままです。
さらに、重要な課題は、従来の機能ベースの方法と組み合わせてPLMSを効果的に活用してAA研究を進める方法です。
この研究では、小さなサンプルのAAタスク上の従来の機能ベースおよび最新のPLMベースの方法の統合された統合アンサンブルを使用して、パフォーマンスを大幅に改善することを目指しました。
実験では、2つの文学作品を使用して、それぞれ10人の著者を分類しました。
結果は、小規模のAAタスクであっても、Bertが効果的であることを示しています。
Bertベースの両方のアンサンブルは、それぞれのスタンドアロンモデルよりも優れており、統合されたアンサンブルアプローチによりスコアが大幅に改善されました。
トレーニング前のデータに含まれていないコーパスの場合、統合されたアンサンブルは、最高のパフォーマンスのシングルモデルと比較して、F1スコアを約14ポイント改善しました。
当社の方法論は、近い将来に拡大し続ける一連のデータ処理ツールを効率的に使用するための実行可能なソリューションを提供します。

要約(オリジナル)

Traditionally, authorship attribution (AA) tasks relied on statistical data analysis and classification based on stylistic features extracted from texts. In recent years, pre-trained language models (PLMs) have attracted significant attention in text classification tasks. However, although they demonstrate excellent performance on large-scale short-text datasets, their effectiveness remains under-explored for small samples, particularly in AA tasks. Additionally, a key challenge is how to effectively leverage PLMs in conjunction with traditional feature-based methods to advance AA research. In this study, we aimed to significantly improve performance using an integrated integrative ensemble of traditional feature-based and modern PLM-based methods on an AA task in a small sample. For the experiment, we used two corpora of literary works to classify 10 authors each. The results indicate that BERT is effective, even for small-sample AA tasks. Both BERT-based and classifier ensembles outperformed their respective stand-alone models, and the integrated ensemble approach further improved the scores significantly. For the corpus that was not included in the pre-training data, the integrated ensemble improved the F1 score by approximately 14 points, compared to the best-performing single model. Our methodology provides a viable solution for the efficient use of the ever-expanding array of data processing tools in the foreseeable future.

arxiv情報

著者 Taisei Kanda,Mingzhe Jin,Wataru Zaitsu
発行日 2025-04-11 13:40:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク