BhasaAnuvaad: A Speech Translation Dataset for 14 Indian Languages

要約

インド言語の自動音声翻訳 (AST) データセットは依然として極めて不足しており、公的リソースがカバーしているのは 22 の公用語のうち 10 言語未満です。
この不足により、インド言語の AST システムは、英語などの高リソース言語で利用できるシステムよりも大幅に遅れています。
このペーパーでは、まずインドの言語で広く使用されている AST システムのパフォーマンスを評価し、顕著なパフォーマンスのギャップと課題を特定します。
私たちの調査結果によると、これらのシステムは読み上げ音声では適切に機能しますが、一時停止やためらいなどの不一致を含む自発的な音声には非常に困難を伴います。
さらに、日常のコミュニケーションの重要な側面である口語や非公式の言語を正確に翻訳できるシステムが著しく欠如しています。
この目的を達成するために、44,400 時間を超える 14 の予定されたインド言語と 1,700 万のテキスト セグメントを含む、AST 用に公開されている最大のデータセットである BhasaAnuvaad を紹介します。
BhasaAnuvaad には、英語音声からインド語テキストへのデータ、およびインド語音声から英語テキストへのデータが含まれています。
このデータセットは、(1) 既存のリソースから厳選されたデータセット、(2) 大規模な Web マイニング、および (3) 合成データ生成の 3 つの主要なカテゴリで構成されます。
この多様で広範なデータセットを提供することで、リソースのギャップを埋め、特に自発的で非公式な発話パターンの処理において、リソースの少ないインド言語の AST の進歩を促進することを目指しています。

要約(オリジナル)

Automatic Speech Translation (AST) datasets for Indian languages remain critically scarce, with public resources covering fewer than 10 of the 22 official languages. This scarcity has resulted in AST systems for Indian languages lagging far behind those available for high-resource languages like English. In this paper, we first evaluate the performance of widely-used AST systems on Indian languages, identifying notable performance gaps and challenges. Our findings show that while these systems perform adequately on read speech, they struggle significantly with spontaneous speech, including disfluencies like pauses and hesitations. Additionally, there is a striking absence of systems capable of accurately translating colloquial and informal language, a key aspect of everyday communication. To this end, we introduce BhasaAnuvaad, the largest publicly available dataset for AST involving 14 scheduled Indian languages spanning over 44,400 hours and 17M text segments. BhasaAnuvaad contains data for English speech to Indic text, as well as Indic speech to English text. This dataset comprises three key categories: (1) Curated datasets from existing resources, (2) Large-scale web mining, and (3) Synthetic data generation. By offering this diverse and expansive dataset, we aim to bridge the resource gap and promote advancements in AST for low-resource Indian languages, especially in handling spontaneous and informal speech patterns.

arxiv情報

著者 Sparsh Jain,Ashwin Sankar,Devilal Choudhary,Dhairya Suman,Nikhil Narasimhan,Mohammed Safi Ur Rahman Khan,Anoop Kunchukuttan,Mitesh M Khapra,Raj Dabre
発行日 2024-11-07 13:33:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク