要約
大規模言語モデル(LLM)は、その卓越した推論能力、汎用性、多様な領域にわたる流暢さで知られており、音声関連タスクを強化するための有望な手段を提示している。本稿では、デコーダのみのLLMを音声テキスト翻訳(S2TT)のタスクに統合することに焦点を当てる。LLMが符号化された音声表現を直接利用し、テキスト翻訳を生成することを可能にするデコーダのみのアーキテクチャを提案する。さらに、様々なパラメータ効率的な微調整手法とタスクの定式化の効果を調べる。我々のモデルは、CoVoST 2とFLEURSにおいて、独自データなしで学習したモデルの中で最先端の性能を達成した。また、我々の提案するモデルの設計上の選択を検証し、LLMのS2TTへの統合に関する洞察を得るための分析も行う。
要約(オリジナル)
Large language models (LLMs), known for their exceptional reasoning capabilities, generalizability, and fluency across diverse domains, present a promising avenue for enhancing speech-related tasks. In this paper, we focus on integrating decoder-only LLMs to the task of speech-to-text translation (S2TT). We propose a decoder-only architecture that enables the LLM to directly consume the encoded speech representation and generate the text translation. Additionally, we investigate the effects of different parameter-efficient fine-tuning techniques and task formulation. Our model achieves state-of-the-art performance on CoVoST 2 and FLEURS among models trained without proprietary data. We also conduct analyses to validate the design choices of our proposed model and bring insights to the integration of LLMs to S2TT.
arxiv情報
著者 | Chao-Wei Huang,Hui Lu,Hongyu Gong,Hirofumi Inaguma,Ilia Kulikov,Ruslan Mavlyutov,Sravya Popuri |
発行日 | 2024-07-03 14:42:49+00:00 |
arxivサイト | arxiv_id(pdf) |