UniverSLU: Universal Spoken Language Understanding for Diverse Classification and Sequence Generation Tasks with a Single Network

要約

最近の研究では、マルチタスク機能を備えた大規模な言語モデルを採用することで有望な結果が得られることが実証されています。
プロンプトを利用してモデルの動作をガイドし、タスク固有のモデルのパフォーマンスを上回ります。
これを動機として、さまざまな音声言語理解 (SLU) タスクを共同で実行する単一のモデルを構築できないか、と考えます。
これに対処するために、事前トレーニングされた自動音声認識 (ASR) モデルを利用し、さまざまなタスクおよびデータセット指定子を個別のプロンプトとして採用します。
17 のデータセットと 9 つの言語にわたって、12 の異なる音声分類およびシーケンス生成タスクに対する単一のマルチタスク学習 (MTL) モデル「UniverSLU」の有効性を実証します。
結果は、UniverSLU が競争力のあるパフォーマンスを達成し、タスク固有のモデルをも上回ることを示しています。
また、個別のプロンプトとしてのタスク指定子の代わりに人間が解釈できる自然なフレーズを有効にするための予備調査を実施し、新しい言い換えに対するモデルの一般化機能をテストします。

要約(オリジナル)

Recent studies have demonstrated promising outcomes by employing large language models with multi-tasking capabilities. They utilize prompts to guide the model’s behavior and surpass performance of task-specific models. Motivated by this, we ask: can we build a single model that jointly perform various spoken language understanding (SLU) tasks? To address this, we utilize pre-trained automatic speech recognition (ASR) models and employ various task and dataset specifiers as discrete prompts. We demonstrate efficacy of our single multi-task learning (MTL) model ‘UniverSLU’ for 12 different speech classification and sequence generation tasks across 17 datasets and 9 languages. Results show that UniverSLU achieves competitive performance and even surpasses task-specific models. We also conduct preliminary investigations into enabling human-interpretable natural phrases instead of task specifiers as discrete prompts and test the model’s generalization capabilities to new paraphrases.

arxiv情報

著者 Siddhant Arora,Hayato Futami,Jee-weon Jung,Yifan Peng,Roshan Sharma,Yosuke Kashiwagi,Emiru Tsunoo,Shinji Watanabe
発行日 2023-10-04 17:10:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク