Yankari: A Monolingual Yoruba Dataset

要約

この論文では、ヨルバ語の大規模な単一言語データセットである Yankari について紹介します。これは、この重要な西アフリカ言語の自然言語処理 (NLP) リソースの重大なギャップに対処することを目的としています。
ヨルバ語は 3,000 万人以上の人に話されているにもかかわらず、NLP の研究や応用においては著しく過小評価されてきました。
このデータセットを作成するための方法論について詳しく説明します。これには、慎重なソースの選択、自動化された品質管理、厳格なデータ クリーニング プロセスが含まれます。
Yankari データセットは、13 のさまざまなソースからの 51,407 のドキュメントで構成され、合計 3,000 万以上のトークンになります。
私たちのアプローチは、倫理的なデータ収集の実践に重点を置き、問題のあるソースを回避し、既存のデータセットに蔓延する問題に対処します。
データセットの徹底的な自動評価を提供し、既存のリソースと比較してその品質を実証します。
Yankari データセットはヨルバ語リソースの大幅な進歩を表しており、より正確な NLP モデルを開発するための基盤を提供し、比較言語研究をサポートし、ヨルバ語のデジタル アクセシビリティに貢献します。

要約(オリジナル)

This paper presents Yankari, a large-scale monolingual dataset for the Yoruba language, aimed at addressing the critical gap in Natural Language Processing (NLP) resources for this important West African language. Despite being spoken by over 30 million people, Yoruba has been severely underrepresented in NLP research and applications. We detail our methodology for creating this dataset, which includes careful source selection, automated quality control, and rigorous data cleaning processes. The Yankari dataset comprises 51,407 documents from 13 diverse sources, totaling over 30 million tokens. Our approach focuses on ethical data collection practices, avoiding problematic sources and addressing issues prevalent in existing datasets. We provide thorough automated evaluations of the dataset, demonstrating its quality compared to existing resources. The Yankari dataset represents a significant advancement in Yoruba language resources, providing a foundation for developing more accurate NLP models, supporting comparative linguistic studies, and contributing to the digital accessibility of the Yoruba language.

arxiv情報

著者 Maro Akpobi
発行日 2024-12-04 14:05:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク