要約
SiriやGoogleアシスタントのような音声アシスタントは、通常、音声とテキストを別々にモデル化するため、音声情報が失われ、複雑さが増します。この問題に対処するため、教師付き微調整(SFT)を用いて訓練されたエンドツーエンドの音声大規模言語モデル(LLM)を用いた最近の取り組みでは、モデルがテキストのみのLLMから機能を「忘れる」ことにつながっている。本研究では、テキストのみのLLMのトランスクリプトに対する応答を自己教師として使用することで、命令データなしで音声LLMを訓練するための代替パラダイムを提案する。重要なことは、このプロセスは注釈付き応答なしで実行できることである。我々は、我々のDistilled Voice Assistant (DiVA)が音声質問応答、分類、翻訳に一般化することを示す。さらに、DiVAがユーザの嗜好をよりよく満たし、Qwen 2 Audioのような最先端モデルと比較して、$>$100倍少ない訓練計算量にもかかわらず、72%の勝率を達成することを示す。
要約(オリジナル)
Voice assistants, such as Siri and Google Assistant, typically model audio and text separately, resulting in lost speech information and increased complexity. Recent efforts to address this with end-to-end Speech Large Language Models (LLMs) trained with supervised finetuning (SFT) have led to models “forgetting’ capabilities from text-only LLMs. Our work proposes an alternative paradigm for training Speech LLMs without instruction data, using the response of a text-only LLM to transcripts as self-supervision. Importantly, this process can be performed without annotated responses. We show that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question Answering, Classification, and Translation. Furthermore, we show that DiVA better meets user preferences, achieving a 72\% win rate compared with state-of-the-art models like Qwen 2 Audio, despite using $>$100x less training compute.
arxiv情報
著者 | William Held,Ella Li,Michael Ryan,Weiyan Shi,Yanzhe Zhang,Diyi Yang |
発行日 | 2024-10-03 17:04:48+00:00 |
arxivサイト | arxiv_id(pdf) |