要約
近年のディープラーニングの進歩により、データに対する飽くなき欲求を持つ高度に洗練されたシステムが開発されている。一方で、低リソース言語向けの優れたディープラーニングモデルを構築することは、依然として困難な課題である。本稿では、このような2つの言語、ヒンディー語とマラーティー語の質問応答データセットの開発に焦点を当てる。ヒンディー語は3億4500万人の話者を持つ世界で3番目に話されている言語であり、マラーティー語は8320万人の話者を持つ世界で11番目に話されている言語であるにもかかわらず、どちらの言語も効率的な質問応答システムを構築するためのリソースが限られている。データ不足の課題に取り組むため、我々はSQuAD 2.0データセットをヒンディー語とマラーティー語に翻訳する新しいアプローチを開発しました。それぞれのデータセットには28,000サンプルが含まれる。このデータセットを様々なアーキテクチャで評価し、ヒンディー語とマラーティー語の両方で最も性能の良いモデルを公開する。類似性ツールを活用することで、我々の手法は多様な言語のデータセットを作成できる可能性を秘めており、それによって様々な言語的文脈における自然言語の理解を深めることができる。微調整されたモデル、コード、データセットは一般に公開される予定である。
要約(オリジナル)
The recent advances in deep-learning have led to the development of highly sophisticated systems with an unquenchable appetite for data. On the other hand, building good deep-learning models for low-resource languages remains a challenging task. This paper focuses on developing a Question Answering dataset for two such languages- Hindi and Marathi. Despite Hindi being the 3rd most spoken language worldwide, with 345 million speakers, and Marathi being the 11th most spoken language globally, with 83.2 million speakers, both languages face limited resources for building efficient Question Answering systems. To tackle the challenge of data scarcity, we have developed a novel approach for translating the SQuAD 2.0 dataset into Hindi and Marathi. We release the largest Question-Answering dataset available for these languages, with each dataset containing 28,000 samples. We evaluate the dataset on various architectures and release the best-performing models for both Hindi and Marathi, which will facilitate further research in these languages. Leveraging similarity tools, our method holds the potential to create datasets in diverse languages, thereby enhancing the understanding of natural language across varied linguistic contexts. Our fine-tuned models, code, and dataset will be made publicly available.
arxiv情報
著者 | Maithili Sabane,Onkar Litake,Aman Chadha |
発行日 | 2023-09-01 00:37:43+00:00 |
arxivサイト | arxiv_id(pdf) |