要約
音声を大規模言語モデル (LLM) に統合し、その結果、命令追従/コンテキスト内学習機能を備えた文脈音声モデル (COSMIC) マルチモーダル LLM を実現する、費用対効果の高い方法を提案します。
GPT-3.5 を使用して、教師付き命令チューニングのために音声転写から音声理解テストの質問と回答 (SQA) のペアを生成します。
COSMIC は、3,000 万未満のトレーニング可能なパラメーターとわずか 450 時間の英語音声データを使用して、指示に従い、文脈に沿った学習における新たな機能を実証します。
このような機能を備えた COSMIC は、0 ショット EN-to-X 音声テキスト変換 (S2TT) で最大 33.18 BLEU スコアを達成し、1 ショット設定で大幅な向上を達成しました。
さらに、ワンショットのクロスドメイン適応では、相対ワード誤り率 (WER) が平均 25.8\% 減少します。
COSMIC は、その命令追従機能により、コンテキスト バイアス タスクにおいて自動音声認識 (ASR) の精度が大幅に向上します。
要約(オリジナル)
We present a cost-effective method to integrate speech into a large language model (LLM), resulting in a Contextual Speech Model with Instruction-following/in-context-learning Capabilities (COSMIC) multi-modal LLM. Using GPT-3.5, we generate Speech Comprehension Test Question-Answer (SQA) pairs from speech transcriptions for supervised instruction tuning. With under 30 million trainable parameters and only 450 hours of English speech data, COSMIC demonstrates emerging capabilities in instruction-following and in-context learning. Equipped with such capabilities, COSMIC achieves a maximum 33.18 BLEU score in 0-shot EN-to-X speech to text translation (S2TT) and a significant boost in the 1-shot setting. Additionally, there is an average 25.8\% relative Word Error Rate (WER) reduction for 1-shot cross-domain adaptation. COSMIC exhibits a significant automatic speech recognition (ASR) accuracy gain in contextual biasing tasks due to its instruction-following capability.
arxiv情報
著者 | Jing Pan,Jian Wu,Yashesh Gaur,Sunit Sivasankaran,Zhuo Chen,Shujie Liu,Jinyu Li |
発行日 | 2024-06-14 17:57:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google