Speech Foundation Models and Crowdsourcing for Efficient, High-Quality Data Collection

要約

クラウドソーシングは音声データの収集を容易にし、拡張するための確立されたソリューションですが、専門家以外の人の関与により、最終的なデータの品質を保証するためのプロトコルが必要になります。
これらの重要な制御のコストを削減するために、このペーパーでは、音声基盤モデル (SFM) を使用して検証プロセスを自動化し、データ取得におけるコストと品質のトレードオフを初めて調査します。
フランス、ドイツ、韓国のデータに対して行われた実験では、SFM ベースの検証には人間による検証への依存を減らす可能性があり、その結果、最終的なデータの品質を低下させることなく推定 40.0% 以上のコスト削減が実現できることが実証されました。
これらの発見により、より効率的でコスト効率が高く、スケーラブルな音声データ取得の新たな機会が開かれます。

要約(オリジナル)

While crowdsourcing is an established solution for facilitating and scaling the collection of speech data, the involvement of non-experts necessitates protocols to ensure final data quality. To reduce the costs of these essential controls, this paper investigates the use of Speech Foundation Models (SFMs) to automate the validation process, examining for the first time the cost/quality trade-off in data acquisition. Experiments conducted on French, German, and Korean data demonstrate that SFM-based validation has the potential to reduce reliance on human validation, resulting in an estimated cost saving of over 40.0% without degrading final data quality. These findings open new opportunities for more efficient, cost-effective, and scalable speech data acquisition.

arxiv情報

著者 Beomseok Lee,Marco Gaido,Ioan Calapodescu,Laurent Besacier,Matteo Negri
発行日 2024-12-16 16:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク