DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding

要約

事前トレーニングされたテキストベースの大規模言語モデル (LLM) と音声入力の統合により、さまざまな音声タスクに対する命令に従う機能が可能になりました。
この統合には、さまざまなタスクでトレーニングされた音声エンコーダー、音声アダプター、および LLM の使用が必要です。
我々は、連続値音声エンコーダ出力ではなく、音声アダプタを使用して LLM トークン埋め込み空間に変換される離散音声単位 (DSU) の使用を提案します。
自己教師あり音声エンコーダとそれに続く K-means クラスタリングを使用して DSU を生成します。
提案されたモデルは、目に見える/見えないドメインからの音声入力に対する堅牢なパフォーマンスと、口頭での質問応答における指示追従機能を示します。
また、自己教師あり音声エンコーダのさまざまな層から抽出されたさまざまなタイプの DSU と、メル周波数ケプストラム係数 (MFCC) についても調査します。
私たちの調査結果は、ASR タスクとデータセットが音声質問応答タスクの命令チューニングにおいて重要ではないことを示唆しています。

要約(オリジナル)

The integration of pre-trained text-based large language models (LLM) with speech input has enabled instruction-following capabilities for diverse speech tasks. This integration requires the use of a speech encoder, a speech adapter, and an LLM, trained on diverse tasks. We propose the use of discrete speech units (DSU), rather than continuous-valued speech encoder outputs, that are converted to the LLM token embedding space using the speech adapter. We generate DSU using a self-supervised speech encoder followed by k-means clustering. The proposed model shows robust performance on speech inputs from seen/unseen domains and instruction-following capability in spoken question answering. We also explore various types of DSU extracted from different layers of the self-supervised speech encoder, as well as Mel frequency Cepstral Coefficients (MFCC). Our findings suggest that the ASR task and datasets are not crucial in instruction-tuning for spoken question answering tasks.

arxiv情報

著者 Suwon Shon,Kwangyoun Kim,Yi-Te Hsu,Prashant Sridhar,Shinji Watanabe,Karen Livescu
発行日 2024-06-13 17:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク