On decoder-only architecture for speech-to-text and large language model integration

要約

大規模言語モデル (LLM) は、自然言語処理の分野で目覚ましい成功を収め、自然言語を使用した人間とコンピューターの対話を可能にします。
ただし、音声信号を LLM にシームレスに統合することについては十分に検討されていません。
「デコーダのみ」のアーキテクチャも、音声処理タスクについては十分に研究されていません。
この研究では、音響情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである Speech-LLaMA を紹介します。
私たちの方法では、コネクショニスト時間分類と単純なオーディオ エンコーダーを利用して、圧縮された音響特徴を LLM の連続意味空間にマッピングします。
さらに、音声とテキストのペアのデータのみから小規模でランダムに初期化された音声 LLaMA モデルをトレーニングすることにより、音声からテキストへのタスク用のデコーダのみのアーキテクチャをさらに調査します。
私たちは、多言語の音声からテキストへの翻訳タスクに関する実験を実施し、強力なベースラインを超える大幅な改善を実証し、音声からテキストへの変換におけるデコーダのみのモデルの潜在的な利点を強調しています。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable success in the field of natural language processing, enabling better human-computer interaction using natural language. However, the seamless integration of speech signals into LLMs has not been explored well. The ‘decoder-only’ architecture has also not been well studied for speech processing tasks. In this research, we introduce Speech-LLaMA, a novel approach that effectively incorporates acoustic information into text-based large language models. Our method leverages Connectionist Temporal Classification and a simple audio encoder to map the compressed acoustic features to the continuous semantic space of the LLM. In addition, we further probe the decoder-only architecture for speech-to-text tasks by training a smaller scale randomly initialized speech-LLaMA model from speech-text paired data alone. We conduct experiments on multilingual speech-to-text translation tasks and demonstrate a significant improvement over strong baselines, highlighting the potential advantages of decoder-only models for speech-to-text conversion.

arxiv情報

著者 Jian Wu,Yashesh Gaur,Zhuo Chen,Long Zhou,Yimeng Zhu,Tianrui Wang,Jinyu Li,Shujie Liu,Bo Ren,Linquan Liu,Yu Wu
発行日 2023-10-02 06:57:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク