Automatic register identification for the open web using multilingual deep learning

要約

この記事では、ディープ ラーニング モデルが 16 の言語にわたる Web レジスタ (ニュース レポートやディスカッション フォーラムなどのさまざまなテキスト) をどの程度識別できるかを調査します。
私たちは、オープン Web 全体をカバーするように設計された 25 のレジスタの階層分類で注釈が付けられた 72,504 の文書を含む Multilingual CORE コーパスを紹介します。
当社の多言語モデルは、マルチラベル分類を使用して最先端の結果 (F1 スコア 79%) を達成します。
このパフォーマンスは、より単純な分類スキームを使用した以前の研究と同等かそれを上回っており、大規模な多言語スケールで複雑な登録スキームを使用してもモデルが良好にパフォーマンスできることを示しています。
ただし、すべてのモデルと構成にわたって、F1 スコアが 77 ~ 80% 付近で一貫したパフォーマンスの上限が観察されます。
データ プルーニングによって不確実なラベルを持つドキュメントを削除すると、パフォーマンスが F1 の 90% 以上に向上しました。これは、この上限がモデルの制限ではなく、Web レジスタに固有のあいまいさに起因していることを示唆しています。
ハイブリッド文書 (複数のレジスタを組み合わせたテキスト) の分析により、主な課題はハイブリッド自体を分類することではなく、ハイブリッド文書と非ハイブリッド文書を区別することにあることが明らかになりました。
多言語モデルは一貫して単言語モデルよりも優れており、特にトレーニング データが限られている言語をサポートします。
ゼロショットのパフォーマンスは、未認識の言語では平均 7% 低下しますが、この低下は言語間で大きく異なります (3% ~ 20%)。これは、レジスタが言語間で多くの機能を共有している一方で、言語固有の特性も維持していることを示しています。

要約(オリジナル)

This article investigates how well deep learning models can identify web registers — text varieties such as news reports and discussion forums — across 16 languages. We introduce the Multilingual CORE corpora, which contain 72,504 documents annotated with a hierarchical taxonomy of 25 registers designed to cover the entire open web. Our multilingual models achieve state-of-the-art results (79% F1 score) using multi-label classification. This performance matches or exceeds previous studies that used simpler classification schemes, showing that models can perform well even with a complex register scheme at a massively multilingual scale. However, we observe a consistent performance ceiling around 77-80% F1 score across all models and configurations. When we remove documents with uncertain labels through data pruning, performance increases to over 90% F1, suggesting that this ceiling stems from inherent ambiguity in web registers rather than model limitations. Analysis of hybrid documents — texts combining multiple registers — reveals that the main challenge is not in classifying hybrids themselves, but in distinguishing between hybrid and non-hybrid documents. Multilingual models consistently outperform monolingual ones, particularly helping languages with limited training data. While zero-shot performance drops by an average of 7% on unseen languages, this decrease varies substantially between languages (from 3% to 20%), indicating that while registers share many features across languages, they also maintain language-specific characteristics.

arxiv情報

著者 Erik Henriksson,Amanda Myntti,Saara Hellström,Anni Eskelinen,Selcen Erten-Johansson,Veronika Laippala
発行日 2024-12-10 12:46:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク