Once-for-All Sequence Compression for Self-Supervised Speech Models

要約

時間軸に沿ったシーケンスの長さは、多くの場合、音声処理における計算の支配的な要因です。
自己教師あり音声モデルの計算コストを下げるために、シーケンス長を減らすための研究が提案されています。
ただし、下流のタスクが異なればシーケンス圧縮の許容範囲も異なるため、固定の圧縮率を生成するモデルがすべてのタスクに適合するとは限りません。
この作業では、動作圧縮率の連続範囲をサポートする、自己教師あり音声モデル用の 1 回限りの (OFA) シーケンス圧縮フレームワークを紹介します。
フレームワークはさまざまなタスクで評価され、パフォーマンスと効率のトレードオフがスムーズで、固定圧縮率のバリアントと比較してわずかな劣化が見られます。
適応圧縮率学習をさらに調査し、グリッド検索を必要とせずにタスク固有の優先フレーム期間を選択する機能を示します。

要約(オリジナル)

The sequence length along the time axis is often the dominant factor of the computation in speech processing. Works have been proposed to reduce the sequence length for lowering the computational cost in self-supervised speech models. However, different downstream tasks have different tolerance of sequence compressing, so a model that produces a fixed compressing rate may not fit all tasks. In this work, we introduce a once-for-all (OFA) sequence compression framework for self-supervised speech models that supports a continuous range of operating compressing rates. The framework is evaluated on various tasks, showing marginal degradation compared to the fixed compressing rate variants with a smooth performance-efficiency trade-off. We further explore adaptive compressing rate learning, demonstrating the ability to select task-specific preferred frame periods without needing a grid search.

arxiv情報

著者 Hsuan-Jui Chen,Yen Meng,Hung-yi Lee
発行日 2023-03-15 07:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク