Authorship Attribution in Bangla Literature (AABL) via Transfer Learning using ULMFiT

要約

著者帰属は、著者の文体を捉えたテキストの適切な特徴付けを作成して、特定のテキストの元の著者を特定するタスクです。
インターネット上での匿名性の向上に伴い、このタスクはさまざまなセキュリティや盗作検出の分野でますます重要になっています。
英語、スペイン語、中国語などの他の言語では大きな進歩があるにもかかわらず、バングラ語はその複雑な言語的特徴と文構造のため、この分野における包括的な研究が不足しています。
さらに、既存のシステムは作成者の数が増えると拡張性がなく、作成者あたりのサンプル数が少ないとパフォーマンスが低下します。
この論文では、バングラ語における著者帰属の複雑な言語特徴の抽出とスケーラビリティの問題に対処する、平均確率的勾配降下重みドロップ長短期記憶 (AWD-LSTM) アーキテクチャと効果的な転移学習アプローチの使用を提案します。
文学 (AABL)。
単語、サブワード、文字レベルのトークン化など、さまざまなトークン化の効果を分析し、提案されたモデルでこれらのトークン化の有効性を実証します。
さらに、標準的なデータセット不足の問題を解決するために、17,966 のサンプル テキストと 1,340 万語以上の単語を含む 16 人の著者のバングラ著者属性データセット (BAAD16) を公開し、バングラ NLP ダウンストリームで使用できる事前トレーニング済み言語モデルの 6 つのバリエーションをリリースします。
タスク。
評価には、開発した BAAD16 データセットと他の公開されているデータセットを使用しました。
経験的に、私たちが提案したモデルは最先端のモデルを上回り、BAAD16 データセットで 99.8% の精度を達成しました。
さらに、著者の数が増えても、提案されたシステムの拡張性が大幅に向上し、トレーニング サンプルが少ないにもかかわらずパフォーマンスが安定していることを示しました。

要約(オリジナル)

Authorship Attribution is the task of creating an appropriate characterization of text that captures the authors’ writing style to identify the original author of a given piece of text. With increased anonymity on the internet, this task has become increasingly crucial in various security and plagiarism detection fields. Despite significant advancements in other languages such as English, Spanish, and Chinese, Bangla lacks comprehensive research in this field due to its complex linguistic feature and sentence structure. Moreover, existing systems are not scalable when the number of author increases, and the performance drops for small number of samples per author. In this paper, we propose the use of Average-Stochastic Gradient Descent Weight-Dropped Long Short-Term Memory (AWD-LSTM) architecture and an effective transfer learning approach that addresses the problem of complex linguistic features extraction and scalability for authorship attribution in Bangla Literature (AABL). We analyze the effect of different tokenization, such as word, sub-word, and character level tokenization, and demonstrate the effectiveness of these tokenizations in the proposed model. Moreover, we introduce the publicly available Bangla Authorship Attribution Dataset of 16 authors (BAAD16) containing 17,966 sample texts and 13.4+ million words to solve the standard dataset scarcity problem and release six variations of pre-trained language models for use in any Bangla NLP downstream task. For evaluation, we used our developed BAAD16 dataset as well as other publicly available datasets. Empirically, our proposed model outperformed state-of-the-art models and achieved 99.8% accuracy in the BAAD16 dataset. Furthermore, we showed that the proposed system scales much better even with an increasing number of authors, and performance remains steady despite few training samples.

arxiv情報

著者 Aisha Khatun,Anisur Rahman,Md Saiful Islam,Hemayet Ahmed Chowdhury,Ayesha Tasnim
発行日 2024-03-08 18:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク