要約
この論文では、小型コネクタ モジュール (Q-Former、当社のサブサンプラー
トランスエンコーダ)。
このコネクタは、音声モダリティとテキスト モダリティの間のギャップを橋渡しし、トレーニング中に最適化されるシステムの唯一の部分でありながら、ASR エンコーダの埋め込みを MT エンコーダの潜在表現空間に変換します。
ST に焦点を当てた小規模シナリオでの位置合わせアプローチを調査する際に、How2 英語-ポルトガル語データセットで実験が行われます。
コネクタ モジュールのサイズを一定かつ比較して小さく保ちながら (より大きな位置合わせモデルのサイズの 5% 未満)、基礎となる ASR および MT モデルのサイズと機能を増やすことで、変換結果が全般的に向上します。
また、コネクタが基盤 MT モデルのドメイン アダプターとして機能し、調整された ST 設定での変換パフォーマンスが大幅に向上することもわかりました。
このアプローチは、エンドツーエンド ST システムをトレーニングするための実行可能かつスケーラブルなアプローチであると結論付けています。
要約(オリジナル)
This paper investigates a novel approach to end-to-end speech translation (ST) based on aligning frozen pre-trained automatic speech recognition (ASR) and machine translation (MT) models via a small connector module (Q-Former, our Subsampler-Transformer Encoder). This connector bridges the gap between the speech and text modalities, transforming ASR encoder embeddings into the latent representation space of the MT encoder while being the only part of the system optimized during training. Experiments are conducted on the How2 English-Portuguese dataset as we investigate the alignment approach in a small-scale scenario focusing on ST. While keeping the size of the connector module constant and small in comparison ( < 5% of the size of the larger aligned models), increasing the size and capability of the foundation ASR and MT models universally improves translation results. We also find that the connectors can serve as domain adapters for the foundation MT models, significantly improving translation performance in the aligned ST setting. We conclude that this approach represents a viable and scalable approach to training end-to-end ST systems.
arxiv情報
著者 | Šimon Sedláček,Santosh Kesiraju,Alexander Polok,Jan Černocký |
発行日 | 2024-11-27 12:32:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google