I3D: Transformer architectures with input-dependent dynamic depth for speech recognition

要約

Transformer ベースのエンドツーエンドの音声認識は、大きな成功を収めています。
ただし、フットプリントが大きく計算上のオーバーヘッドがあるため、これらのモデルを実際のアプリケーションに展開することは困難です。
モデル圧縮技術は、モデルのサイズを縮小し、推論を高速化できますが、圧縮されたモデルのアーキテクチャは固定されているため、最適ではない可能性があります。
パフォーマンスと効率の強力なトレードオフを実現するために、入力依存の動的深度 (I3D) を備えた新しいトランスフォーマー エンコーダーを提案します。
推論時に同様の数のレイヤーを使用すると、I3D ベースのモデルは、通常の Transformer および反復レイヤーのプルーニングによる静的プルーニング モデルよりも優れています。
また、ゲート確率と入力依存性に関する興味深い分析も提示します。これは、ディープ エンコーダーをよりよく理解するのに役立ちます。

要約(オリジナル)

Transformer-based end-to-end speech recognition has achieved great success. However, the large footprint and computational overhead make it difficult to deploy these models in some real-world applications. Model compression techniques can reduce the model size and speed up inference, but the compressed model has a fixed architecture which might be suboptimal. We propose a novel Transformer encoder with Input-Dependent Dynamic Depth (I3D) to achieve strong performance-efficiency trade-offs. With a similar number of layers at inference time, I3D-based models outperform the vanilla Transformer and the static pruned model via iterative layer pruning. We also present interesting analysis on the gate probabilities and the input-dependency, which helps us better understand deep encoders.

arxiv情報

著者 Yifan Peng,Jaesong Lee,Shinji Watanabe
発行日 2023-03-14 04:47:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク