要約
Faetar 自動音声認識ベンチマークを紹介します。これは、低リソースの音声認識に対する現在のアプローチの限界を押し上げるように設計されたベンチマーク コーパスです。
Faetar は、主にイタリアで話されているフランコ語証明の変種で、標準的な正書法がなく、ベンチマークに含まれるもの以外に既存のテキストや音声リソースが事実上なく、他の形式のフランコ語とはまったく異なります。
実証済み。
コーパスはフィールド録音からのものですが、そのほとんどはノイズが多く、一致する転写は 5 時間しかなく、強制的な位置合わせの品質はさまざまです。
コーパスには、ラベルのない音声がさらに 20 時間含まれています。
ラベルなしセットを使用して基礎モデルの事前トレーニングを継続するパイプラインを使用して、最先端の多言語音声基礎モデルからのベースライン結果を報告し、最高の電話エラー率は 30.4% です。
要約(オリジナル)
We introduce the Faetar Automatic Speech Recognition Benchmark, a benchmark corpus designed to push the limits of current approaches to low-resource speech recognition. Faetar, a Franco-Proven\c{c}al variety spoken primarily in Italy, has no standard orthography, has virtually no existing textual or speech resources other than what is included in the benchmark, and is quite different from other forms of Franco-Proven\c{c}al. The corpus comes from field recordings, most of which are noisy, for which only 5 hrs have matching transcriptions, and for which forced alignment is of variable quality. The corpus contains an additional 20 hrs of unlabelled speech. We report baseline results from state-of-the-art multilingual speech foundation models with a best phone error rate of 30.4%, using a pipeline that continues pre-training on the foundation model using the unlabelled set.
arxiv情報
著者 | Michael Ong,Sean Robertson,Leo Peckham,Alba Jorquera Jimenez de Aberasturi,Paula Arkhangorodsky,Robin Huo,Aman Sakhardande,Mark Hallap,Naomi Nagy,Ewan Dunbar |
発行日 | 2024-09-12 14:55:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google