要約
Speech Large Language Model (Speech LLM) の台頭により、テキストベースのトークンとシームレスに統合できる離散音声トークンへの関心が高まっています。
連続音声特徴に焦点を当てたほとんどの研究と比較すると、離散トークンベースの LLM は特定のタスクで有望な結果を示していますが、これら 2 つのパラダイム間のパフォーマンスのギャップはほとんど調査されていません。
このペーパーでは、軽量 LLM (Qwen1.5-0.5B) を使用して、セマンティック関連のさまざまなタスクにわたる離散機能と連続機能の間の公正かつ徹底的な比較を示します。
私たちの調査結果では、特に詳細な意味の理解を必要とするタスクでは、連続的な特徴が一般的に離散的なトークンよりも優れたパフォーマンスを発揮することが明らかになりました。
さらに、この調査は表面レベルの比較を超えて、トークン粒度の制限や情報保持の非効率など、個別トークンのパフォーマンス低下の背後にある主な要因を特定しています。
個別トークンのパフォーマンスを向上させるために、分析に基づいて潜在的な側面を調査します。
私たちの結果が、音声 LLM における離散音声トークンを進化させる機会についての新たな洞察を提供できることを願っています。
要約(オリジナル)
With the rise of Speech Large Language Models (Speech LLMs), there has been growing interest in discrete speech tokens for their ability to integrate with text-based tokens seamlessly. Compared to most studies that focus on continuous speech features, although discrete-token based LLMs have shown promising results on certain tasks, the performance gap between these two paradigms is rarely explored. In this paper, we present a fair and thorough comparison between discrete and continuous features across a variety of semantic-related tasks using a light-weight LLM (Qwen1.5-0.5B). Our findings reveal that continuous features generally outperform discrete tokens, particularly in tasks requiring fine-grained semantic understanding. Moreover, this study goes beyond surface-level comparison by identifying key factors behind the under-performance of discrete tokens, such as limited token granularity and inefficient information retention. To enhance the performance of discrete tokens, we explore potential aspects based on our analysis. We hope our results can offer new insights into the opportunities for advancing discrete speech tokens in Speech LLMs.
arxiv情報
著者 | Dingdong Wang,Mingyu Cui,Dongchao Yang,Xueyuan Chen,Helen Meng |
発行日 | 2024-11-13 16:20:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google