StyloMetrix: An Open-Source Multilingual Tool for Representing Stylometric Vectors


この作業は、StyloMetrix と呼ばれるオープンソースの多言語ツールの概要を提供することを目的としています。
文法、構文、語彙のさまざまな側面をカバーするスタイロメトリック テキスト表現を提供します。
StyloMetrix は、主言語としてのポーランド語、英語、ウクライナ語、ロシア語の 4 つの言語をカバーしています。
私たちは、StyloMetrix ベクトルのアプリケーションに関する簡潔かつ徹底的な概要を提供するとともに、開発された言語機能のセットを説明するよう努めています。
深層学習の評価により、Transformer アーキテクチャから抽出された埋め込み層を強化する際の StyloMetrix ベクトルの有用性が明らかになりました。
StyloMetrix は、さまざまな分類タスクを実行するための機械学習および深層学習アルゴリズムの強力なソースであることが証明されています。


This work aims to provide an overview on the open-source multilanguage tool called StyloMetrix. It offers stylometric text representations that cover various aspects of grammar, syntax and lexicon. StyloMetrix covers four languages: Polish as the primary language, English, Ukrainian and Russian. The normalized output of each feature can become a fruitful course for machine learning models and a valuable addition to the embeddings layer for any deep learning algorithm. We strive to provide a concise, but exhaustive overview on the application of the StyloMetrix vectors as well as explain the sets of the developed linguistic features. The experiments have shown promising results in supervised content classification with simple algorithms as Random Forest Classifier, Voting Classifier, Logistic Regression and others. The deep learning assessments have unveiled the usefulness of the StyloMetrix vectors at enhancing an embedding layer extracted from Transformer architectures. The StyloMetrix has proven itself to be a formidable source for the machine learning and deep learning algorithms to execute different classification tasks.


著者 Inez Okulska,Daria Stetsenko,Anna Kołos,Agnieszka Karlińska,Kinga Głąbińska,Adam Nowakowski
発行日 2023-09-22 11:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク