A Comparative Analysis of Bilingual and Trilingual Wav2Vec Models for Automatic Speech Recognition in Multilingual Oral History Archives

要約

この論文では、単一言語の Wav2Vec 2.0 モデルとさまざまな多言語モデルを比較し、多数の混合言語文を含む独自のオーラル ヒストリー アーカイブでの音声認識パフォーマンスを向上できるかどうかを確認しています。
私たちの主な目標は、私たちの文化遺産の非常に貴重な部分であるこのユニークなデータセットの研究を進めることです。
私たちの結果は、非母語話者による混合言語の文章でいっぱいの口述履歴アーカイブを処理する場合でも、ほとんどの場合、単言語音声認識モデルが多言語モデルよりも優れていることを示唆しています。
また、結果を検証するために、公開されている CommonVoice データセットに対しても同じ実験を実行しました。
私たちは事前トレーニングされたモデルを一般に公開することで研究コミュニティに貢献しています。

要約(オリジナル)

In this paper, we are comparing monolingual Wav2Vec 2.0 models with various multilingual models to see whether we could improve speech recognition performance on a unique oral history archive containing a lot of mixed-language sentences. Our main goal is to push forward research on this unique dataset, which is an extremely valuable part of our cultural heritage. Our results suggest that monolingual speech recognition models are, in most cases, superior to multilingual models, even when processing the oral history archive full of mixed-language sentences from non-native speakers. We also performed the same experiments on the public CommonVoice dataset to verify our results. We are contributing to the research community by releasing our pre-trained models to the public.

arxiv情報

著者 Jan Lehečka,Josef V. Psutka,Luboš Šmídl,Pavel Ircing,Josef Psutka
発行日 2024-07-24 11:03:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク