要約
入力テキスト/音声の言語を知ることは、タガー、パーサー、翻訳システムなど、ほとんどすべての自然言語処理ツールを使用するために必要な最初のステップです。言語識別はよく研究された問題であり、時には解決されたとさえ考えられている。しかし実際には、データ不足や計算上の課題により、現在のシステムでは世界の7000の言語のほとんどを正確に識別することができない。このボトルネックに対処するために、我々はまず、350以上の言語の50Kの多言語並列童話のコーパス、MCS-350をコンパイルします。MCS-350は、短いテキストの言語識別や、リソースの少ないインドやアフリカの言語における1,400以上の新しい翻訳の方向性のベンチマークとして役立つ。第二に、言語識別のための新しい誤予測解決階層モデルLIMItを提案する。このモデルは、我々の編集した童話データセットでは55%(0.71から0.32)、FLORES-200ベンチマークでは40%(0.23から0.14)誤差を低減する。本手法は、システム的な誤予測パターンにのみ依存することで、大規模なモデルをゼロから再学習する必要性を回避し、低リソース言語への言語識別カバレッジを拡大することができる。
要約(オリジナル)
Knowing the language of an input text/audio is a necessary first step for using almost every NLP tool such as taggers, parsers, or translation systems. Language identification is a well-studied problem, sometimes even considered solved; in reality, due to lack of data and computational challenges, current systems cannot accurately identify most of the world’s 7000 languages. To tackle this bottleneck, we first compile a corpus, MCS-350, of 50K multilingual and parallel children’s stories in 350+ languages. MCS-350 can serve as a benchmark for language identification of short texts and for 1400+ new translation directions in low-resource Indian and African languages. Second, we propose a novel misprediction-resolution hierarchical model, LIMIt, for language identification that reduces error by 55% (from 0.71 to 0.32) on our compiled children’s stories dataset and by 40% (from 0.23 to 0.14) on the FLORES-200 benchmark. Our method can expand language identification coverage into low-resource languages by relying solely on systemic misprediction patterns, bypassing the need to retrain large models from scratch.
arxiv情報
著者 | Milind Agarwal,Md Mahfuz Ibn Alam,Antonios Anastasopoulos |
発行日 | 2023-11-06 16:29:21+00:00 |
arxivサイト | arxiv_id(pdf) |