要約
音声処理の最近の進歩にも関わらず、ゼロリソース音声翻訳 (ST) と自動音声認識 (ASR) には依然として困難な問題が残っています。
この研究では、多言語大規模言語モデル (LLM) を活用して、モデルがこれまでペアになったオーディオ テキスト データを見たことがない言語で ST および ASR を実行することを提案します。
これは、事前トレーニング済みの多言語音声エンコーダ、多言語 LLM、および音声表現を LLM のトークン埋め込み空間にマッピングする軽量適応モジュールを使用することで実現されます。
私たちは、モデルを最適にトレーニングする方法と、これまで見たことのない言語のパフォーマンスに最も影響を与えるデータを理解するために、ST と ASR の両方でいくつかの実験を実行します。
ST では、当社の最良のモデルは、これまで見たことのない 2 つの言語に対して CoVoST2 で 23 以上の BLEU スコアを達成することができ、一方、ASR では、最大 28.2\% の WER を達成しました。
最後に、システムのパフォーマンスが、目的の言語でテキストを出力する LLM の能力によって制限されることを示します。
要約(オリジナル)
Despite recent advancements in speech processing, zero-resource speech translation (ST) and automatic speech recognition (ASR) remain challenging problems. In this work, we propose to leverage a multilingual Large Language Model (LLM) to perform ST and ASR in languages for which the model has never seen paired audio-text data. We achieve this by using a pre-trained multilingual speech encoder, a multilingual LLM, and a lightweight adaptation module that maps the audio representations to the token embedding space of the LLM. We perform several experiments both in ST and ASR to understand how to best train the model and what data has the most impact on performance in previously unseen languages. In ST, our best model is capable to achieve BLEU scores over 23 in CoVoST2 for two previously unseen languages, while in ASR, we achieve WERs of up to 28.2\%. We finally show that the performance of our system is bounded by the ability of the LLM to output text in the desired language.
arxiv情報
著者 | Karel Mundnich,Xing Niu,Prashant Mathur,Srikanth Ronanki,Brady Houston,Veera Raghavendra Elluru,Nilaksh Das,Zejiang Hou,Goeric Huybrechts,Anshu Bhatia,Daniel Garcia-Romero,Kyu J. Han,Katrin Kirchhoff |
発行日 | 2024-12-24 17:37:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google