A Dataset and Strong Baselines for Classification of Czech News Texts

要約

チェコの自然言語処理の事前トレーニング済みモデルは、多くの場合、純粋な言語タスク (POS タグ付け、解析、NER) と、感情分類や単一ニュース ソースからの記事分類などの比較的単純な分類タスクで評価されます。
代替案として、20 年以上にわたるさまざまなソースからのニュース記事で構成される、チェコ最大の分類データセットの 1 つである CZEch~NEws~Classification~dataset (CZE-NEC) を紹介します。これにより、そのようなモデルのより厳密な評価が可能になります。
ニュース ソース、ニュース カテゴリ、推定著者の性別、曜日という 4 つの分類タスクを定義します。
タスクの難易度を検証するために、人間による評価を実施したところ、人間のパフォーマンスは、事前にトレーニングされた変圧器モデルに基づいて構築された強力な機械学習ベースラインよりも遅れていることが明らかになりました。
さらに、言語固有の事前トレーニング済みエンコーダー分析が、選択された市販の大規模生成言語モデルよりも優れていることを示します。

要約(オリジナル)

Pre-trained models for Czech Natural Language Processing are often evaluated on purely linguistic tasks (POS tagging, parsing, NER) and relatively simple classification tasks such as sentiment classification or article classification from a single news source. As an alternative, we present CZEch~NEws~Classification~dataset (CZE-NEC), one of the largest Czech classification datasets, composed of news articles from various sources spanning over twenty years, which allows a more rigorous evaluation of such models. We define four classification tasks: news source, news category, inferred author’s gender, and day of the week. To verify the task difficulty, we conducted a human evaluation, which revealed that human performance lags behind strong machine-learning baselines built upon pre-trained transformer models. Furthermore, we show that language-specific pre-trained encoder analysis outperforms selected commercially available large-scale generative language models.

arxiv情報

著者 Hynek Kydlíček,Jindřich Libovický
発行日 2023-07-20 07:47:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク