要約
ウィキペディアの高品質で広範な言語のカバレッジが認識していることにより、多言語NLPの基本的なリソースとして確立されています。
ただし、低リソース言語の文脈では、これらの品質の仮定はますます精査されています。
このホワイトペーパーでは、さまざまな品質のフィルタリング技術にさらされることにより、英語以外の設定でウィキペディアのデータ品質を批判的に調べ、1行の記事や重複記事の高い割合の広範な問題を明らかにします。
ウィキペディアに対する品質フィルタリングの下流の影響を評価し、データ品質の剪定は、特に低リソース言語では、パフォーマンスを損なうことなくリソース効率の良いトレーニングの効果的な手段であることがわかります。
さらに、データ品質の一般的な定義を求めることから、より言語固有のものとタスク固有のものへの視点の変化を提唱しています。
最終的に、この研究は、多言語の環境での前登録にウィキペディアを使用するためのガイドとして役立つことを目指しています。
要約(オリジナル)
Wikipedia’s perceived high quality and broad language coverage have established it as a fundamental resource in multilingual NLP. In the context of low-resource languages, however, these quality assumptions are increasingly being scrutinised. This paper critically examines the data quality of Wikipedia in a non-English setting by subjecting it to various quality filtering techniques, revealing widespread issues such as a high percentage of one-line articles and duplicate articles. We evaluate the downstream impact of quality filtering on Wikipedia and find that data quality pruning is an effective means for resource-efficient training without hurting performance, especially for low-resource languages. Moreover, we advocate for a shift in perspective from seeking a general definition of data quality towards a more language- and task-specific one. Ultimately, we aim for this study to serve as a guide to using Wikipedia for pretraining in a multilingual setting.
arxiv情報
著者 | Kushal Tatariya,Artur Kulmizev,Wessel Poelman,Esther Ploeger,Marcel Bollmann,Johannes Bjerva,Jiaming Luo,Heather Lent,Miryam de Lhoneux |
発行日 | 2025-05-16 12:52:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google