要約
ウィキペディアは高品質で幅広い言語をカバーしていると認識されているため、多言語 NLP の基本リソースとして確立されています。
ただし、低リソース言語の文脈では、これらの品質に関する前提条件がますます精査されています。
この論文では、英語以外の環境における Wikipedia のデータ品質を、さまざまな品質フィルタリング手法を適用することで批判的に調査し、高い割合の 1 行記事や重複記事などの広範な問題を明らかにしています。
私たちは、Wikipedia での品質フィルタリングの下流への影響を評価し、データ品質のプルーニングが、特に低リソース言語の場合、パフォーマンスを損なうことなくリソース効率の高いトレーニングを行うための効果的な手段であることを発見しました。
さらに、データ品質の一般的な定義を求めることから、より言語とタスクに特化した定義へと視点を変えることを提唱します。
最終的には、この研究が多言語環境での事前トレーニングにウィキペディアを使用するためのガイドとして機能することを目指しています。
要約(オリジナル)
Wikipedia’s perceived high quality and broad language coverage have established it as a fundamental resource in multilingual NLP. In the context of low-resource languages, however, these quality assumptions are increasingly being scrutinised. This paper critically examines the data quality of Wikipedia in a non-English setting by subjecting it to various quality filtering techniques, revealing widespread issues such as a high percentage of one-line articles and duplicate articles. We evaluate the downstream impact of quality filtering on Wikipedia and find that data quality pruning is an effective means for resource-efficient training without hurting performance, especially for low-resource languages. Moreover, we advocate for a shift in perspective from seeking a general definition of data quality towards a more language- and task-specific one. Ultimately, we aim for this study to serve as a guide to using Wikipedia for pretraining in a multilingual setting.
arxiv情報
| 著者 | Kushal Tatariya,Artur Kulmizev,Wessel Poelman,Esther Ploeger,Marcel Bollmann,Johannes Bjerva,Jiaming Luo,Heather Lent,Miryam de Lhoneux |
| 発行日 | 2024-11-08 12:35:58+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google