Monolingual and Cross-Lingual Knowledge Transfer for Topic Classification

要約

この記事では、RuQTopics データセットからの知識の伝達について調査します。
このロシアのトピック データセットは、多数のサンプル数 (単一ラベル 361,560、複数ラベル 170,930) と広範なクラス カバレッジ (76 クラス) を組み合わせています。
このデータセットは「Yandex Que」生データから準備しました。
ロシアの MASSIVE サブセットの 6 つの一致するクラスでトレーニングされた RuQTopics モデルを評価することにより、このデータセットでトレーニングされたロシア語のみのモデルが一貫して約 85 の精度をもたらしたため、RuQTopics データセットが現実世界の会話タスクに適していることが証明されました。
このサブセットの \%。
また、RuQTopics でトレーニングされ、同じ 6 つの MASSIVE クラス (すべての MASSIVE 言語) で評価された多言語 BERT では、言語に関する精度が密接に相関していることもわかりました (スピアマン相関 0.773、p 値 2.997e-11)
) は、対応する言語の事前トレーニング BERT データのおおよそのサイズで表されます。
同時に、言語的な正確さとロシア語からの言語的距離との相関関係は統計的に有意ではありません。

要約(オリジナル)

This article investigates the knowledge transfer from the RuQTopics dataset. This Russian topical dataset combines a large sample number (361,560 single-label, 170,930 multi-label) with extensive class coverage (76 classes). We have prepared this dataset from the ‘Yandex Que’ raw data. By evaluating the RuQTopics – trained models on the six matching classes of the Russian MASSIVE subset, we have proved that the RuQTopics dataset is suitable for real-world conversational tasks, as the Russian-only models trained on this dataset consistently yield an accuracy around 85\% on this subset. We also have figured out that for the multilingual BERT, trained on the RuQTopics and evaluated on the same six classes of MASSIVE (for all MASSIVE languages), the language-wise accuracy closely correlates (Spearman correlation 0.773 with p-value 2.997e-11) with the approximate size of the pretraining BERT’s data for the corresponding language. At the same time, the correlation of the language-wise accuracy with the linguistical distance from Russian is not statistically significant.

arxiv情報

著者 Dmitry Karpov,Mikhail Burtsev
発行日 2023-06-13 14:19:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク