要約
この論文では、音声データのタスク関連のプロンプトを条件とした意味ラベルを生成する統合エンドツーエンド (E2E) フレームワークを導入することにより、音声の意味を理解するための命令の微調整手法を検討します。
大規模で多様なデータを使用してモデルを事前トレーニングし、命令と音声のペアがテキスト読み上げ (TTS) システムを介して構築されます。
広範な実験により、下流タスクを微調整した後、私たちが提案したモデルが最先端 (SOTA) モデルよりも大幅に優れていることが実証されました。
さらに、提案されたモデルは、ゼロショットおよび少数ショットのシナリオでも競争力のあるパフォーマンスを達成します。
音声からセマンティックへのタスクのための命令の微調整に関する今後の作業を促進するために、命令データセットとコードをリリースします。
要約(オリジナル)
This paper explores the instruction fine-tuning technique for speech semantic understanding by introducing a unified end-to-end (E2E) framework that generates semantic labels conditioned on a task-related prompt for audio data. We pre-train the model using large and diverse data, where instruction-speech pairs are constructed via a text-to-speech (TTS) system. Extensive experiments demonstrate that our proposed model significantly outperforms state-of-the-art (SOTA) models after fine-tuning downstream tasks. Furthermore, the proposed model achieves competitive performance in zero-shot and few-shot scenarios. To facilitate future work on instruction fine-tuning for speech-to-semantic tasks, we release our instruction dataset and code.
arxiv情報
著者 | Aobo Xia,Shuyu Lei,Yushu Yang,Xiang Guo,Hua Chai |
発行日 | 2023-09-06 06:44:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google