要約
通常、1 秒あたり数万のレートでサンプリングされる音声信号には冗長性が含まれており、シーケンス モデリングの非効率性を引き起こします。
スペクトログラムなどの高次元の音声特徴は、後続のモデルの入力としてよく使用されます。
ただし、それでも冗長になる可能性があります。
最近の研究では、自己教師あり学習表現から派生した離散音声単位の使用が提案されており、これにより音声データのサイズが大幅に圧縮されます。
重複排除やサブワード モデリングなどのさまざまな方法を適用すると、音声シーケンスの長さをさらに圧縮できます。
したがって、顕著なパフォーマンスを維持しながらトレーニング時間が大幅に短縮されます。
この研究では、エンドツーエンドの音声処理モデル内の個別ユニットのアプリケーションについて、包括的かつ体系的な調査を行います。
12 個の自動音声認識、3 個の音声翻訳、および 1 個の音声言語理解コーパスに関する実験では、離散ユニットがほぼすべての設定でかなり良好な結果を達成することが実証されました。
私たちは、将来の研究活動を促進するために、構成と訓練されたモデルをリリースする予定です。
要約(オリジナル)
Speech signals, typically sampled at rates in the tens of thousands per second, contain redundancies, evoking inefficiencies in sequence modeling. High-dimensional speech features such as spectrograms are often used as the input for the subsequent model. However, they can still be redundant. Recent investigations proposed the use of discrete speech units derived from self-supervised learning representations, which significantly compresses the size of speech data. Applying various methods, such as de-duplication and subword modeling, can further compress the speech sequence length. Hence, training time is significantly reduced while retaining notable performance. In this study, we undertake a comprehensive and systematic exploration into the application of discrete units within end-to-end speech processing models. Experiments on 12 automatic speech recognition, 3 speech translation, and 1 spoken language understanding corpora demonstrate that discrete units achieve reasonably good results in almost all the settings. We intend to release our configurations and trained models to foster future research efforts.
arxiv情報
著者 | Xuankai Chang,Brian Yan,Kwanghee Choi,Jeeweon Jung,Yichen Lu,Soumi Maiti,Roshan Sharma,Jiatong Shi,Jinchuan Tian,Shinji Watanabe,Yuya Fujita,Takashi Maekaku,Pengcheng Guo,Yao-Fei Cheng,Pavel Denisov,Kohei Saijo,Hsiu-Hsuan Wang |
発行日 | 2023-09-27 17:21:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google