GRASS: Unified Generation Model for Speech-to-Semantic Tasks

要約

この論文では、音声データのタスク関連プロンプトを条件としたターゲット テキストを生成する統合エンドツーエンド (E2E) フレームワークを導入することにより、音声から意味論的なタスクのための命令微調整手法を検討します。
大規模で多様なデータを使用してモデルを事前トレーニングし、命令と音声のペアがテキスト読み上げ (TTS) システムを介して構築されます。
広範な実験により、私たちが提案したモデルは、微調整後に音声固有表現認識、音声感情分析、音声質問応答などをカバーする多くのベンチマークで最先端 (SOTA) の結果を達成できることが実証されました。
さらに、提案されたモデルは、ゼロショットおよび少数ショットのシナリオでも競争力のあるパフォーマンスを達成します。
音声からセマンティックへのタスクのための命令の微調整に関する今後の作業を促進するために、命令データセットとコードをリリースします。

要約(オリジナル)

This paper explores the instruction fine-tuning technique for speech-to-semantic tasks by introducing a unified end-to-end (E2E) framework that generates target text conditioned on a task-related prompt for audio data. We pre-train the model using large and diverse data, where instruction-speech pairs are constructed via a text-to-speech (TTS) system. Extensive experiments demonstrate that our proposed model achieves state-of-the-art (SOTA) results on many benchmarks covering speech named entity recognition, speech sentiment analysis, speech question answering, and more, after fine-tuning. Furthermore, the proposed model achieves competitive performance in zero-shot and few-shot scenarios. To facilitate future work on instruction fine-tuning for speech-to-semantic tasks, we release our instruction dataset and code.

arxiv情報

著者 Aobo Xia,Shuyu Lei,Yushu Yang,Xiang Guo,Hua Chai
発行日 2023-09-11 09:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク