UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions

要約

最近の研究では、マルチタスク機能を持つ大規模な言語モデルを活用し、自然言語プロンプトを使用してモデルの動作をガイドし、タスクに特化したモデルの性能を凌駕している。このことに触発され、我々は、様々な音声言語理解(SLU)タスクを共同で実行する単一のモデルを構築できないかと考えている。我々はまず、事前に訓練された自動音声認識モデルを、単一トークンのタスク指定子を用いて追加タスクに適応させることから始める。私たちは、指示チューニング、すなわち、ラベルオプションのリストに続く自然言語指示を用いてタスクを記述することによる微調整を通じて、このアプローチを強化する。我々のアプローチは、推論中に見たタスクの新しいタスク記述に汎化することができ、それにより使い勝手を向上させる。我々の単一マルチタスク学習モデル「UniverSLU」の有効性を、17のデータセットと9つの言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して実証する。ほとんどのタスクにおいて、UniverSLUは競争力のある性能を達成し、タスク固有のモデルを上回ることさえある。さらに、我々はゼロショット能力を評価し、このモデルが新しいデータセットや言語にも汎化することを発見した。

要約(オリジナル)

Recent studies leverage large language models with multi-tasking capabilities, using natural language prompts to guide the model’s behavior and surpassing performance of task-specific models. Motivated by this, we ask: can we build a single model that jointly performs various spoken language understanding (SLU) tasks? We start by adapting a pre-trained automatic speech recognition model to additional tasks using single-token task specifiers. We enhance this approach through instruction tuning, i.e., finetuning by describing the task using natural language instructions followed by the list of label options. Our approach can generalize to new task descriptions for the seen tasks during inference, thereby enhancing its user-friendliness. We demonstrate the efficacy of our single multi-task learning model ‘UniverSLU’ for 12 speech classification and sequence generation task types spanning 17 datasets and 9 languages. On most tasks, UniverSLU achieves competitive performance and often even surpasses task-specific models. Additionally, we assess the zero-shot capabilities, finding that the model generalizes to new datasets and languages for seen task types.

arxiv情報

著者 Siddhant Arora,Hayato Futami,Jee-weon Jung,Yifan Peng,Roshan Sharma,Yosuke Kashiwagi,Emiru Tsunoo,Karen Livescu,Shinji Watanabe
発行日 2024-04-03 14:12:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク