要約
入力テキスト/音声の言語を知ることは、タガー、パーサー、翻訳システムなどのほぼすべての自然言語処理 (NLP) ツールを使用するために必要な最初のステップです。
言語の識別はよく研究されている問題であり、解決済みであるとみなされることもあります。
実際には、世界の 7,000 言語のほとんどは現在のシステムではサポートされていません。
この表現の欠如は大規模なデータマイニングの取り組みに影響を与え、低リソース言語のデータ不足をさらに悪化させます。
私たちは、350 以上の言語と方言で 50,000 を超える並列童話のコーパスを編集することでデータのボトルネックに取り組み、言語識別のための軽量の階層モデルを構築することで計算のボトルネックに取り組む一歩を踏み出しました。
私たちのデータは、短いテキストの言語識別や、インド言語やアフリカ言語間の翻訳など、十分に研究されていない翻訳方向のベンチマーク データとして機能します。
私たちが提案する手法である階層型 LIMIT は、限られた計算量を使用して、予測の品質を維持しながら除外言語への適用範囲を拡大します。
要約(オリジナル)
Knowing the language of an input text/audio is a necessary first step for using almost every natural language processing (NLP) tool such as taggers, parsers, or translation systems. Language identification is a well-studied problem, sometimes even considered solved; in reality, most of the world’s 7000 languages are not supported by current systems. This lack of representation affects large-scale data mining efforts and further exacerbates data shortage for low-resource languages. We take a step towards tackling the data bottleneck by compiling a corpus of over 50K parallel children’s stories in 350+ languages and dialects, and the computation bottleneck by building lightweight hierarchical models for language identification. Our data can serve as benchmark data for language identification of short texts and for understudied translation directions such as those between Indian or African languages. Our proposed method, Hierarchical LIMIT, uses limited computation to expand coverage into excluded languages while maintaining prediction quality.
arxiv情報
著者 | Milind Agarwal,Md Mahfuz Ibn Alam,Antonios Anastasopoulos |
発行日 | 2023-05-23 17:15:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google