StyloMetrix: An Open-Source Multilingual Tool for Representing Stylometric Vectors

要約

この作業は、StyloMetrix と呼ばれるオープンソースの多言語ツールの概要を提供することを目的としています。
文法、構文、語彙のさまざまな側面をカバーするスタイロメトリック テキスト表現を提供します。
StyloMetrix は、主言語としてのポーランド語、英語、ウクライナ語、ロシア語の 4 つの言語をカバーしています。
各特徴の正規化された出力は、機械学習モデルにとって有益なコースとなり、あらゆる深層学習アルゴリズムの埋め込み層への価値ある追加となります。
私たちは、StyloMetrix ベクトルのアプリケーションに関する簡潔かつ徹底的な概要を提供するとともに、開発された言語機能のセットを説明するよう努めています。
実験では、ランダムフォレスト分類器、投票分類器、ロジスティック回帰などの単純なアルゴリズムを使用した教師付きコンテンツ分類で有望な結果が示されました。
深層学習の評価により、Transformer アーキテクチャから抽出された埋め込み層を強化する際の StyloMetrix ベクトルの有用性が明らかになりました。
StyloMetrix は、さまざまな分類タスクを実行するための機械学習および深層学習アルゴリズムの強力なソースであることが証明されています。

要約(オリジナル)

This work aims to provide an overview on the open-source multilanguage tool called StyloMetrix. It offers stylometric text representations that cover various aspects of grammar, syntax and lexicon. StyloMetrix covers four languages: Polish as the primary language, English, Ukrainian and Russian. The normalized output of each feature can become a fruitful course for machine learning models and a valuable addition to the embeddings layer for any deep learning algorithm. We strive to provide a concise, but exhaustive overview on the application of the StyloMetrix vectors as well as explain the sets of the developed linguistic features. The experiments have shown promising results in supervised content classification with simple algorithms as Random Forest Classifier, Voting Classifier, Logistic Regression and others. The deep learning assessments have unveiled the usefulness of the StyloMetrix vectors at enhancing an embedding layer extracted from Transformer architectures. The StyloMetrix has proven itself to be a formidable source for the machine learning and deep learning algorithms to execute different classification tasks.

arxiv情報

著者 Inez Okulska,Daria Stetsenko,Anna Kołos,Agnieszka Karlińska,Kinga Głąbińska,Adam Nowakowski
発行日 2023-09-22 11:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク