AMPS: ASR with Multimodal Paraphrase Supervision

要約

自発的または会話的な多言語音声は、最先端の自動音声認識 (ASR) システムにとって多くの課題を引き起こします。
この研究では、ヒンディー語、マラーティー語、マラヤーラム語、カンナダ語、ニャンジャを含む複数言語での会話型 ASR を改善するために、言い換えベースの監視を備えた多言語マルチモーダル ASR システムを強化する新しい技術 AMPS を紹介します。
マルチモーダル ASR モデルのトレーニング中に追加の監視として参照転写の言い換えを使用し、ASR パフォーマンスが低い発話に対してこの言い換え目標を選択的に呼び出します。
AMPS と最先端のマルチモーダル モデル SeamlessM4T を使用することで、単語誤り率 (WER) が最大 5% という大幅な相対削減を実現しました。
客観的評価基準と人的評価基準の両方を使用して、システムの詳細な分析を示します。

要約(オリジナル)

Spontaneous or conversational multilingual speech presents many challenges for state-of-the-art automatic speech recognition (ASR) systems. In this work, we present a new technique AMPS that augments a multilingual multimodal ASR system with paraphrase-based supervision for improved conversational ASR in multiple languages, including Hindi, Marathi, Malayalam, Kannada, and Nyanja. We use paraphrases of the reference transcriptions as additional supervision while training the multimodal ASR model and selectively invoke this paraphrase objective for utterances with poor ASR performance. Using AMPS with a state-of-the-art multimodal model SeamlessM4T, we obtain significant relative reductions in word error rates (WERs) of up to 5%. We present detailed analyses of our system using both objective and human evaluation metrics.

arxiv情報

著者 Amruta Parulekar,Abhishek Gupta,Sameep Chattopadhyay,Preethi Jyothi
発行日 2024-11-27 14:16:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS パーマリンク