SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks

要約

プロンプト チューニングは、少数のパラメーター セットを調整して事前トレーニング済みの言語モデル (LM) を操作し、ダウンストリーム タスクの出力を直接生成するテクノロジです。
最近、プロンプト チューニングは、自然言語処理 (NLP) と音声処理の両方の分野で、ストレージと計算の効率が実証されています。
これらの利点により、統合された方法で複数のタスクに対して事前トレーニング済みの LM を提供するための候補アプローチとして、プロンプト チューニングが明らかになりました。
音声処理の場合、SpeechPrompt は、いくつかの音声分類タスクで高いパラメーター効率と競争力のあるパフォーマンスを示しています。
ただし、SpeechPrompt が多数のタスクを処理できるかどうかは不明です。
この作業では、複数の言語と韻律関連のタスクをカバーする、さまざまな音声分類タスクを実行できるプロンプト チューニング フレームワークである SpeechPrompt v2 を提案します。
実験結果は、SpeechPrompt v2 が、統一されたフレームワークで 0.15M 未満のトレーニング可能なパラメーターで、以前の作品と同等のパフォーマンスを達成することを示しています。

要約(オリジナル)

Prompt tuning is a technology that tunes a small set of parameters to steer a pre-trained language model (LM) to directly generate the output for downstream tasks. Recently, prompt tuning has demonstrated its storage and computation efficiency in both natural language processing (NLP) and speech processing fields. These advantages have also revealed prompt tuning as a candidate approach to serving pre-trained LM for multiple tasks in a unified manner. For speech processing, SpeechPrompt shows its high parameter efficiency and competitive performance on a few speech classification tasks. However, whether SpeechPrompt is capable of serving a large number of tasks is unanswered. In this work, we propose SpeechPrompt v2, a prompt tuning framework capable of performing a wide variety of speech classification tasks, covering multiple languages and prosody-related tasks. The experiment result shows that SpeechPrompt v2 achieves performance on par with prior works with less than 0.15M trainable parameters in a unified framework.

arxiv情報

著者 Kai-Wei Chang,Yu-Kai Wang,Hua Shen,Iu-thing Kang,Wei-Cheng Tseng,Shang-Wen Li,Hung-yi Lee
発行日 2023-03-01 18:47:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク