要約
質問回答(QA)システムの急速な進歩は、主に高リソース言語に利益をもたらし、膨大なネイティブスピーカーベースにもかかわらず、インド語の言語はほとんど過小評価されています。
この論文では、Squad Datasetから体系的に派生した9つの主要なインド言語をカバーする包括的な多言語抽出QAデータセットであるIndicsquadを紹介します。
MarathiのためにMahasquadとの以前の作業に基づいて、私たちのアプローチは、多様な言語にわたって高い言語的忠実度と正確な回答スパンアライメントを維持するために翻訳技術を適応および拡張します。
Indicsquadは、各言語の広範なトレーニング、検証、およびテストセットで構成され、モデル開発のための堅牢な基盤を提供します。
言語固有の単一言語のBERTモデルと多言語のMuril-Bertを使用して、ベースラインのパフォーマンスを評価します。
結果は、低リソース設定に固有のいくつかの課題を示しています。
さらに、私たちの実験は、追加の言語への拡大、ドメイン固有のデータセットの開発、マルチモーダルデータの組み込みなど、将来の作業の潜在的な方向性を示唆しています。
データセットとモデルは、https://github.com/l3cube-pune/indic-nlpで公開されています
要約(オリジナル)
The rapid progress in question-answering (QA) systems has predominantly benefited high-resource languages, leaving Indic languages largely underrepresented despite their vast native speaker base. In this paper, we present IndicSQuAD, a comprehensive multi-lingual extractive QA dataset covering nine major Indic languages, systematically derived from the SQuAD dataset. Building on previous work with MahaSQuAD for Marathi, our approach adapts and extends translation techniques to maintain high linguistic fidelity and accurate answer-span alignment across diverse languages. IndicSQuAD comprises extensive training, validation, and test sets for each language, providing a robust foundation for model development. We evaluate baseline performances using language-specific monolingual BERT models and the multilingual MuRIL-BERT. The results indicate some challenges inherent in low-resource settings. Moreover, our experiments suggest potential directions for future work, including expanding to additional languages, developing domain-specific datasets, and incorporating multimodal data. The dataset and models are publicly shared at https://github.com/l3cube-pune/indic-nlp
arxiv情報
著者 | Sharvi Endait,Ruturaj Ghatage,Aditya Kulkarni,Rajlaxmi Patil,Raviraj Joshi |
発行日 | 2025-05-13 11:11:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google