Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages

要約

自然言語処理ツールは世界の一部の言語に対して広範囲に開発されていますが、世界の 7000 以上の言語のかなりの部分は依然として無視されています。
その理由の 1 つは、評価データセットが低資源言語や絶滅危惧言語を含む幅広い言語をまだカバーしていないことです。
私たちは、多数の言語を網羅するテキスト分類データセットを作成することで、この問題に対処することを目指していますが、その多くは現在、利用可能な注釈付きデータをほとんどまたはまったく持っていません。
私たちは聖書の対訳を活用して、最初に該当するトピックを開発し、クラウドソーシング ツールを使用して注釈付きデータを収集することで、このようなデータセットを構築します。
データの英語側に注釈を付け、整列した詩を通じてラベルを他の言語に投影することにより、1,500 を超える言語のテキスト分類データセットを生成します。
私たちは、データセットを使用して、いくつかの既存の多言語モデルを広範にベンチマークします。
この分野の研究の推進を促進するために、私たちはデータセットとコードを公開します。

要約(オリジナル)

While natural language processing tools have been developed extensively for some of the world’s languages, a significant portion of the world’s over 7000 languages are still neglected. One reason for this is that evaluation datasets do not yet cover a wide range of languages, including low-resource and endangered ones. We aim to address this issue by creating a text classification dataset encompassing a large number of languages, many of which currently have little to no annotated data available. We leverage parallel translations of the Bible to construct such a dataset by first developing applicable topics and employing a crowdsourcing tool to collect annotated data. By annotating the English side of the data and projecting the labels onto other languages through aligned verses, we generate text classification datasets for more than 1500 languages. We extensively benchmark several existing multilingual language models using our dataset. To facilitate the advancement of research in this area, we will release our dataset and code.

arxiv情報

著者 Chunlan Ma,Ayyoob ImaniGooghari,Haotian Ye,Renhao Pei,Ehsaneddin Asgari,Hinrich Schütze
発行日 2024-06-04 15:03:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク