Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing

要約

離散音声トークン化に関する最近の研究により、音声認識、テキストから音声への変換、音声から音声への翻訳など、モダリティ全体で複数のタスクをシームレスに実行できるモデルへの道が開かれました。
さらに、膨大なテキスト コーパスから事前トレーニングされた大規模言語モデル (LLM) には、さまざまなタスクの精度を向上させることができる豊富な言語情報が含まれています。
この論文では、複数のタスク (ASR、T2S、S2TT など) およびモダリティ (テキスト、音声、ビジョン) に柔軟に適用できる、デコーダー専用の離散マルチモーダル言語モデル (DMLM) を紹介します。
損失関数、重みの初期化、混合トレーニング監視、コードブックなど、離散マルチモーダル モデルのいくつかの重要な側面を調査します。
私たちの結果は、教師ありトレーニングと教師なしトレーニングを組み合わせることで、複数のタスクとデータセットにわたって DMLM に大きなメリットがあることが示されています。
さらに、ASR の場合、事前トレーニングされた LLM からの DMLM の初期化と、Whisper アクティベーションから派生したコードブックからメリットが得られます。

要約(オリジナル)

Recent work on discrete speech tokenization has paved the way for models that can seamlessly perform multiple tasks across modalities, e.g., speech recognition, text to speech, speech to speech translation. Moreover, large language models (LLMs) pretrained from vast text corpora contain rich linguistic information that can improve accuracy in a variety of tasks. In this paper, we present a decoder-only Discrete Multimodal Language Model (DMLM), which can be flexibly applied to multiple tasks (ASR, T2S, S2TT, etc.) and modalities (text, speech, vision). We explore several critical aspects of discrete multi-modal models, including the loss function, weight initialization, mixed training supervision, and codebook. Our results show that DMLM benefits significantly, across multiple tasks and datasets, from a combination of supervised and unsupervised training. Moreover, for ASR, it benefits from initializing DMLM from a pretrained LLM, and from a codebook derived from Whisper activations.

arxiv情報

著者 Viet Anh Trinh,Rosy Southwell,Yiwen Guan,Xinlu He,Zhiyong Wang,Jacob Whitehill
発行日 2024-06-25 17:44:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク