Optimizing Speech Multi-View Feature Fusion through Conditional Computation

要約

最近の進歩により、さまざまな音声関連タスクにおける自己教師あり学習 (SSL) 機能の有効性が強調され、軽量で多用途のマルチビュー音声表現が提供されます。
ただし、私たちの調査では、SSL 機能はモデルの収束を促進しますが、更新方向の点で FBank などの従来のスペクトル機能と競合することが明らかになりました。
これに応えて、勾配に敏感なゲーティング ネットワークと多段階ドロップアウト戦略を特徴とする、条件付き計算に基づいた新しい一般化された特徴融合フレームワークを提案します。
このフレームワークは、特徴の競合を軽減し、マルチビュー入力特徴に対するモデルの堅牢性を強化します。
SSL とスペクトル機能を統合することで、私たちのアプローチは収束を加速し、MUSTC データセット上の複数の音声翻訳タスクにわたってスペクトル モデルと同等のパフォーマンスを維持します。

要約(オリジナル)

Recent advancements have highlighted the efficacy of self-supervised learning (SSL) features in various speech-related tasks, providing lightweight and versatile multi-view speech representations. However, our study reveals that while SSL features expedite model convergence, they conflict with traditional spectral features like FBanks in terms of update directions. In response, we propose a novel generalized feature fusion framework grounded in conditional computation, featuring a gradient-sensitive gating network and a multi-stage dropout strategy. This framework mitigates feature conflicts and bolsters model robustness to multi-view input features. By integrating SSL and spectral features, our approach accelerates convergence and maintains performance on par with spectral models across multiple speech translation tasks on the MUSTC dataset.

arxiv情報

著者 Weiqiao Shan,Yuhao Zhang,Yuchen Han,Bei Li,Xiaofeng Zhao,Yuang Li,Min Zhang,Hao Yang,Tong Xiao,Jingbo Zhu
発行日 2025-01-14 12:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク