要約
スタイル分析は、比較的あまり探求されていないトピックであり、いくつかの興味深いアプリケーションを可能にします。
たとえば、作成者は執筆スタイルを調整して、共同でより一貫性のあるドキュメントを作成できます。
同様に、スタイル分析は、主要なステップとしてドキュメントの来歴と認証にも使用できます。
この論文では、スタイル分析の重要なタスクの 1 つである、単一および複数の著者による文書を分類するためのアンサンブル ベースのテキスト処理フレームワークを提案します。
提案されたフレームワークには、古典的な機械学習 (ML) アルゴリズム、トランスフォーマー、深層学習アルゴリズムなど、最先端のテキスト分類アルゴリズムが個別に、またはメリットベースの後期融合の両方で組み込まれています。
メリットベースの後期融合では、いくつかの重みの最適化と選択方法を採用して、メリットベースの重みを個々のテキスト分類アルゴリズムに割り当てました。
また、クリーンなデータとクリーンでないデータの両方で実験を行うことにより、前処理中に NLP アプリケーションで通常除外されるタスクに対する文字の影響を分析します。
提案されたフレームワークは、大規模なベンチマーク データセットで評価され、既存のソリューションよりもパフォーマンスが大幅に向上します。
要約(オリジナル)
Style analysis, which is relatively a less explored topic, enables several interesting applications. For instance, it allows authors to adjust their writing style to produce a more coherent document in collaboration. Similarly, style analysis can also be used for document provenance and authentication as a primary step. In this paper, we propose an ensemble-based text-processing framework for the classification of single and multi-authored documents, which is one of the key tasks in style analysis. The proposed framework incorporates several state-of-the-art text classification algorithms including classical Machine Learning (ML) algorithms, transformers, and deep learning algorithms both individually and in merit-based late fusion. For the merit-based late fusion, we employed several weight optimization and selection methods to assign merit-based weights to the individual text classification algorithms. We also analyze the impact of the characters on the task that are usually excluded in NLP applications during pre-processing by conducting experiments on both clean and un-clean data. The proposed framework is evaluated on a large-scale benchmark dataset, significantly improving performance over the existing solutions.
arxiv情報
| 著者 | Muhammad Tayyab Zamir,Muhammad Asif Ayub,Jebran Khan,Muhammad Jawad Ikram,Nasir Ahmad,Kashif Ahmad |
| 発行日 | 2023-03-02 12:26:03+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google