Untangling the Unrestricted Web: Automatic Identification of Multilingual Registers

要約

この記事では、16 言語にわたる Web ベースのデータセット内のレジスタ (ニュース レポートやディスカッション フォーラムなどのテキストの種類) を自動識別するためのディープ ラーニング モデルについて説明します。
Web 登録 (またはジャンル) の識別は、計算言語学において重要になっている Web スケールのデータセットの内容を理解するための強力なソリューションを提供します。
最近の進歩にも関わらず、騒がしい Web 上での登録分類子の可能性は、特に多言語環境や制限のない Web 全体を対象とする場合には、ほとんど解明されていないままです。
私たちは、新しい Multilingual CORE corpora を使用してさまざまな深層学習モデルを実験します。これには、制限のない Web 全体をカバーするように設計された 25 のレジスタの詳細な階層分類を使用して注釈が付けられた 16 の言語が含まれます。
私たちのモデルは最先端の結果を達成し、階層的なマルチラベル設定での詳細な分類が競争力のある分類パフォーマンスを生み出すことができることを示しています。
ただし、すべてのモデルは F1 スコアの約 80% でガラスの天井に達しています。これは、Web レジスタの非離散的な性質と、一部のドキュメントのラベル付けに固有の不確実性が原因であると考えられます。
あいまいな例を取り除くことで、モデルのパフォーマンスが 90% 以上に向上します。
最後に、多言語モデルは単言語モデルよりも優れており、特にトレーニング例が少なくレジスターが小さい言語に有利です。
ゼロショット設定ではパフォーマンスが平均 7% 低下しますが、これらの低下は特定のレジスタや言語に関連するものではありません。
その代わり、レジスターは言語間で驚くべき類似性を示します。

要約(オリジナル)

This article explores deep learning models for the automatic identification of registers – text varieties such as news reports and discussion forums – in web-based datasets across 16 languages. Web register (or genre) identification would provide a robust solution for understanding the content of web-scale datasets, which have become crucial in computational linguistics. Despite recent advances, the potential of register classifiers on the noisy web remains largely unexplored, particularly in multilingual settings and when targeting the entire unrestricted web. We experiment with a range of deep learning models using the new Multilingual CORE corpora, which includes 16 languages annotated using a detailed, hierarchical taxonomy of 25 registers designed to cover the entire unrestricted web. Our models achieve state-of-the-art results, showing that a detailed taxonomy in a hierarchical multi-label setting can yield competitive classification performance. However, all models hit a glass ceiling at approximately 80% F1 score, which we attribute to the non-discrete nature of web registers and the inherent uncertainty in labeling some documents. By pruning ambiguous examples, we improve model performance to over 90%. Finally, multilingual models outperform monolingual ones, particularly benefiting languages with fewer training examples and smaller registers. Although a zero-shot setting decreases performance by an average of 7%, these drops are not linked to specific registers or languages. Instead, registers show surprising similarity across languages.

arxiv情報

著者 Erik Henriksson,Amanda Myntti,Anni Eskelinen,Selcen Erten-Johansson,Saara Hellström,Veronika Laippala
発行日 2024-06-28 13:00:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク