HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing

要約

ヘブライ語の音声言語処理用の弱教師データセットである HebDB を紹介します。
HebDB は、多種多様な話者やトピックで構成される、ヘブライ語の自然および自発的な音声録音を約 2,500 時間提供しています。
私たちは、生の録音を、前処理され、弱く監視され、フィルターされたバージョンとともに提供します。
HebDB の目標は、ヘブライ語の音声言語処理ツールの研究開発をさらに強化することです。
したがって、自動音声認識 (ASR) 用の 2 つのベースライン システムを追加で提供します。(i) 自己教師ありモデル。
(ii) 完全に監視されたモデル。
HebDB 上で最適化されたこれら 2 つのメソッドのパフォーマンスを示し、現在の多言語 ASR 代替手段と比較します。
結果は、提案された方法が、同様のモデルサイズを考慮して評価されたベースラインよりも良い結果に達することを示唆しています。
データセット、コード、モデルは https://pages.cs.huji.ac.il/adiyoss-lab/HebDB/ で公開されています。

要約(オリジナル)

We present HebDB, a weakly supervised dataset for spoken language processing in the Hebrew language. HebDB offers roughly 2500 hours of natural and spontaneous speech recordings in the Hebrew language, consisting of a large variety of speakers and topics. We provide raw recordings together with a pre-processed, weakly supervised, and filtered version. The goal of HebDB is to further enhance research and development of spoken language processing tools for the Hebrew language. Hence, we additionally provide two baseline systems for Automatic Speech Recognition (ASR): (i) a self-supervised model; and (ii) a fully supervised model. We present the performance of these two methods optimized on HebDB and compare them to current multi-lingual ASR alternatives. Results suggest the proposed method reaches better results than the evaluated baselines considering similar model sizes. Dataset, code, and models are publicly available under https://pages.cs.huji.ac.il/adiyoss-lab/HebDB/.

arxiv情報

著者 Arnon Turetzky,Or Tal,Yael Segal-Feldman,Yehoshua Dissen,Ella Zeldes,Amit Roth,Eyal Cohen,Yosi Shrem,Bronya R. Chernyak,Olga Seleznova,Joseph Keshet,Yossi Adi
発行日 2024-07-10 11:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク