CLASSLA-web: Comparable Web Corpora of South Slavic Languages Enriched with Linguistic and Genre Annotation

要約

この論文は、スロベニア語、クロアチア語、ボスニア語、モンテネグロ語、セルビア語、マケドニア語、ブルガリア語の非常に比較可能なウェブコーパスのコレクションを提示し、それによって南スラブ言語空間の公用語の全範囲をカバーします。
これらのコーパスのコレクションは、2,600 万の文書からの合計 130 億のテキスト トークンで構成されています。
コーパスの比較可能性は、同等のクローリング設定と、同一のクローリングおよび後処理テクノロジーの使用によって保証されます。
すべてのコーパスには、最先端の CLASSLA-Stanza 言語処理パイプラインを使用して言語注釈が付けられ、Transformer ベースの多言語 X-GENRE 分類器を介して文書レベルのジャンル情報が強化され、言語レベルでの比較可能性がさらに向上しました。
注釈とメタデータの強化。
結果として得られたコーパスのジャンルに焦点を当てた分析では、7 つのコーパス全体でかなり一貫したジャンルの分布が示されており、最も顕著なジャンル カテゴリの変動は各言語コミュニティの経済力によって十分に説明されています。
コーパス全体のジャンル カテゴリの分布を比較すると、発展途上国の Web コーパスは主にニュース記事で構成されていることがわかります。
逆に、経済的に先進国のウェブ コーパスでは、ニュース コンテンツの割合が少なく、宣伝や意見の多いテキストが多く存在します。

要約(オリジナル)

This paper presents a collection of highly comparable web corpora of Slovenian, Croatian, Bosnian, Montenegrin, Serbian, Macedonian, and Bulgarian, covering thereby the whole spectrum of official languages in the South Slavic language space. The collection of these corpora comprises a total of 13 billion tokens of texts from 26 million documents. The comparability of the corpora is ensured by a comparable crawling setup and the usage of identical crawling and post-processing technology. All the corpora were linguistically annotated with the state-of-the-art CLASSLA-Stanza linguistic processing pipeline, and enriched with document-level genre information via the Transformer-based multilingual X-GENRE classifier, which further enhances comparability at the level of linguistic annotation and metadata enrichment. The genre-focused analysis of the resulting corpora shows a rather consistent distribution of genres throughout the seven corpora, with variations in the most prominent genre categories being well-explained by the economic strength of each language community. A comparison of the distribution of genre categories across the corpora indicates that web corpora from less developed countries primarily consist of news articles. Conversely, web corpora from economically more developed countries exhibit a smaller proportion of news content, with a greater presence of promotional and opinionated texts.

arxiv情報

著者 Nikola Ljubešić,Taja Kuzman
発行日 2024-03-19 13:30:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク