HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing


ヘブライ語の音声言語処理用の弱教師データセットである HebDB を紹介します。
HebDB は、多種多様な話者やトピックで構成される、ヘブライ語の自然および自発的な音声録音を約 2,500 時間提供しています。
HebDB の目標は、ヘブライ語の音声言語処理ツールの研究開発をさらに強化することです。
したがって、自動音声認識 (ASR) 用の 2 つのベースライン システムを追加で提供します。(i) 自己教師ありモデル。
(ii) 完全に監視されたモデル。
HebDB 上で最適化されたこれら 2 つのメソッドのパフォーマンスを示し、現在の多言語 ASR 代替手段と比較します。
データセット、コード、モデルは https://pages.cs.huji.ac.il/adiyoss-lab/HebDB/ で公開されています。


We present HebDB, a weakly supervised dataset for spoken language processing in the Hebrew language. HebDB offers roughly 2500 hours of natural and spontaneous speech recordings in the Hebrew language, consisting of a large variety of speakers and topics. We provide raw recordings together with a pre-processed, weakly supervised, and filtered version. The goal of HebDB is to further enhance research and development of spoken language processing tools for the Hebrew language. Hence, we additionally provide two baseline systems for Automatic Speech Recognition (ASR): (i) a self-supervised model; and (ii) a fully supervised model. We present the performance of these two methods optimized on HebDB and compare them to current multi-lingual ASR alternatives. Results suggest the proposed method reaches better results than the evaluated baselines considering similar model sizes. Dataset, code, and models are publicly available under https://pages.cs.huji.ac.il/adiyoss-lab/HebDB/.


著者 Arnon Turetzky,Or Tal,Yael Segal-Feldman,Yehoshua Dissen,Ella Zeldes,Amit Roth,Eyal Cohen,Yosi Shrem,Bronya R. Chernyak,Olga Seleznova,Joseph Keshet,Yossi Adi
発行日 2024-07-10 11:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク