Hybrid Transducer and Attention based Encoder-Decoder Modeling for Speech-to-Text Tasks

要約

タイトル:音声からテキストへのタスクのためのハイブリッドトランスデューサーとアテンションベースのエンコーダ・デコーダモデリング

要約:

– TransducerとAttention based Encoder-Decoder(AED)は、音声からテキストへのタスクにとって広く使用されるフレームワークの2つである。
– それらは異なる目的で設計され、それぞれに音声からテキストへのタスクに対して利点と欠点がある。
– 両方のモデル手法の強みを生かすために、音声からテキストへのタスクに対してTransducerとAttention based Encoder-Decoderを組み合わせたTAEDを提案する。
– 提案されたフレームワークでは、TransducerとAEDは同じ音声エンコーダを共有する。
– Transducerの予測器はAEDモデルのデコーダに置き換えられ、デコーダの出力は、無条件の言語モデルの出力ではなく音声入力に条件付けられる。
– 提案された解決策は、可能なすべての読み書きのシナリオをカバーするようにモデルを最適化し、ストリーミングアプリケーションのための一致した環境を作成する。
– 提案されたアプローチを\textsc{MuST-C}データセットで評価し、その結果、TAEDは、オフライン自動音声認識(ASR)および音声からテキスト翻訳(ST)タスクにおいて、Transducerよりも有意に優れていることが示された。
– ストリーミングケースでは、TAEDはASRタスクと1つのST方向でTransducerを上回り、他の翻訳方向では同等の結果が得られた。

要約(オリジナル)

Transducer and Attention based Encoder-Decoder (AED) are two widely used frameworks for speech-to-text tasks. They are designed for different purposes and each has its own benefits and drawbacks for speech-to-text tasks. In order to leverage strengths of both modeling methods, we propose a solution by combining Transducer and Attention based Encoder-Decoder (TAED) for speech-to-text tasks. The new method leverages AED’s strength in non-monotonic sequence to sequence learning while retaining Transducer’s streaming property. In the proposed framework, Transducer and AED share the same speech encoder. The predictor in Transducer is replaced by the decoder in the AED model, and the outputs of the decoder are conditioned on the speech inputs instead of outputs from an unconditioned language model. The proposed solution ensures that the model is optimized by covering all possible read/write scenarios and creates a matched environment for streaming applications. We evaluate the proposed approach on the \textsc{MuST-C} dataset and the findings demonstrate that TAED performs significantly better than Transducer for offline automatic speech recognition (ASR) and speech-to-text translation (ST) tasks. In the streaming case, TAED outperforms Transducer in the ASR task and one ST direction while comparable results are achieved in another translation direction.

arxiv情報

著者 Yun Tang,Anna Y. Sun,Hirofumi Inaguma,Xinyue Chen,Ning Dong,Xutai Ma,Paden D. Tomasello,Juan Pino
発行日 2023-05-04 18:34:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク