Dynamic Data Pruning for Automatic Speech Recognition

要約

自動音声認識 (ASR) の最近の成功は、増え続けるトレーニング データの量に大きく貢献しています。
ただし、この傾向により、モデルのトレーニングに法外なコストがかかり、計算量が増加しています。
データ プルーニングは、関連データの小さなサブセットを特定することでこの問題を軽減するために提案されていますが、ASR でのその適用はほとんど検討されておらず、既存の作業では意味のある結果を達成するために多大なオーバーヘッドが伴うことがよくあります。
このギャップを埋めるために、このホワイト ペーパーでは、ASR の動的データ プルーニングの最初の調査を紹介し、データの 70% を動的に選択することで完全なデータのパフォーマンスに到達できることを発見しました。
さらに、ASR 用の動的データ プルーニング (DDP-ASR) を導入します。これは、タイム シーケンス全体の従来のプルーニングを超え、音声関連のデータセットに特化して調整されたいくつかのきめの細かいプルーニング粒度を提供します。
私たちの集中的な実験により、DDP-ASR はごくわずかなパフォーマンス損失でトレーニング時間を最大 1.6 倍節約できることがわかりました。

要約(オリジナル)

The recent success of Automatic Speech Recognition (ASR) is largely attributed to the ever-growing amount of training data. However, this trend has made model training prohibitively costly and imposed computational demands. While data pruning has been proposed to mitigate this issue by identifying a small subset of relevant data, its application in ASR has been barely explored, and existing works often entail significant overhead to achieve meaningful results. To fill this gap, this paper presents the first investigation of dynamic data pruning for ASR, finding that we can reach the full-data performance by dynamically selecting 70% of data. Furthermore, we introduce Dynamic Data Pruning for ASR (DDP-ASR), which offers several fine-grained pruning granularities specifically tailored for speech-related datasets, going beyond the conventional pruning of entire time sequences. Our intensive experiments show that DDP-ASR can save up to 1.6x training time with negligible performance loss.

arxiv情報

著者 Qiao Xiao,Pingchuan Ma,Adriana Fernandez-Lopez,Boqian Wu,Lu Yin,Stavros Petridis,Mykola Pechenizkiy,Maja Pantic,Decebal Constantin Mocanu,Shiwei Liu
発行日 2024-06-26 14:17:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク