AlbNews: A Corpus of Headlines for Topic Modeling in Albanian

要約

アルバニア語のような低リソース言語では利用可能なテキスト コーパスが不足していることが、自然言語処理タスクの研究にとって重大な障害となっています。
この文書では、アルバニア語で話題のラベルが付いた 600 のニュース ヘッドラインとラベルのない 2,600 のニュース ヘッドラインを集めた AlbNews を紹介します。
このデータは、トピックモデリング研究を行うために自由に使用できます。
AlbNews サンプルを使用してトレーニングされたいくつかの従来の機械学習分類器の初期分類スコアを報告します。
これらの結果は、基本モデルがアンサンブル学習モデルを上回り、将来の実験のベースラインとして機能できることを示しています。

要約(オリジナル)

The scarcity of available text corpora for low-resource languages like Albanian is a serious hurdle for research in natural language processing tasks. This paper introduces AlbNews, a collection of 600 topically labeled news headlines and 2600 unlabeled ones in Albanian. The data can be freely used for conducting topic modeling research. We report the initial classification scores of some traditional machine learning classifiers trained with the AlbNews samples. These results show that basic models outrun the ensemble learning ones and can serve as a baseline for future experiments.

arxiv情報

著者 Erion Çano,Dario Lamaj
発行日 2024-02-06 14:24:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク