A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation

要約

同時音声翻訳 (SimulST) では、ストリーミング音声入力を継続的に処理しながらターゲット言語テキストを生成するため、リアルタイムに大きな課題が生じます。
マルチタスク学習は、SimulST のパフォーマンスを向上させるためによく使用されますが、主タスクと補助タスクの間で最適化の競合が発生し、全体の効率が損なわれる可能性があります。
既存のモデルレベルの競合解決方法はこのタスクにはあまり適していないため、非効率が悪化して GPU メモリの消費量が多くなります。
これらの課題に対処するために、よりきめの細かいモジュール レベルで競合を検出し、勾配投影を利用して解決する Modular Gradient Conflict Mitigation (MGCM) 戦略を提案します。
実験結果は、MGCM が SimulST のパフォーマンスを大幅に向上させ、特に中遅延および高遅延の条件下で、オフライン タスクで 0.68 BLEU スコアの向上を達成したことを示しています。
さらに、MGCM は他の競合軽減方法と比較して GPU メモリ消費を 95\% 以上削減し、SimulST タスクの堅牢なソリューションとして確立します。

要約(オリジナル)

Simultaneous Speech Translation (SimulST) involves generating target language text while continuously processing streaming speech input, presenting significant real-time challenges. Multi-task learning is often employed to enhance SimulST performance but introduces optimization conflicts between primary and auxiliary tasks, potentially compromising overall efficiency. The existing model-level conflict resolution methods are not well-suited for this task which exacerbates inefficiencies and leads to high GPU memory consumption. To address these challenges, we propose a Modular Gradient Conflict Mitigation (MGCM) strategy that detects conflicts at a finer-grained modular level and resolves them utilizing gradient projection. Experimental results demonstrate that MGCM significantly improves SimulST performance, particularly under medium and high latency conditions, achieving a 0.68 BLEU score gain in offline tasks. Additionally, MGCM reduces GPU memory consumption by over 95\% compared to other conflict mitigation methods, establishing it as a robust solution for SimulST tasks.

arxiv情報

著者 Xiaoqian Liu,Yangfan Du,Jianjin Wang,Yuan Ge,Chen Xu,Tong Xiao,Guocheng Chen,Jingbo Zhu
発行日 2024-09-24 09:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク