Learning to Initialize: Can Meta Learning Improve Cross-task Generalization in Prompt Tuning?

要約

タスクごとにトークンの追加シーケンスの埋め込みのみを調整し、事前トレーニング済み言語モデル (PLM) を凍結したままにするプロンプト チューニング (PT) は、少数ショット学習で顕著なパフォーマンスを示しています。
それにもかかわらず、PT はプロンプト埋め込みの適切な初期化に大きく依存していることが示されています。
この作業では、メタ プロンプト チューニング (MPT) を研究し、他の関連タスクからのプロンプト埋め込みを初期化する学習を通じて、メタ学習が PT のクロスタスク一般化を (可能であれば) 改善するのにどのように役立つかを体系的に調べます。
多数の少数ショット タスクで、さまざまなソース/ターゲット タスク構成を使用して、幅広い適応設定でメタ学習アルゴリズムの代表的なセットを経験的に分析します。
広範な実験と分析により、MPT の有効性を実証します。
特に分類タスクでは、改善が重要であることがわかります。
質問応答などの他の種類のタスクについては、MPT はほとんどの場合 PT よりも優れていますが、マルチタスク学習よりも常に優れているとは限りません。
さらに、タスクの類似性の観点から詳細な分析を提供します。

要約(オリジナル)

Prompt tuning (PT) which only tunes the embeddings of an additional sequence of tokens per task, keeping the pre-trained language model (PLM) frozen, has shown remarkable performance in few-shot learning. Despite this, PT has been shown to rely heavily on good initialization of the prompt embeddings. In this work, we study meta prompt tuning (MPT) to systematically explore how meta-learning can help improve (if it can) cross-task generalization in PT through learning to initialize the prompt embeddings from other relevant tasks. We empirically analyze a representative set of meta learning algorithms in a wide range of adaptation settings with different source/target task configurations on a large set of few-shot tasks. With extensive experiments and analysis, we demonstrate the effectiveness of MPT. We find the improvement to be significant particularly on classification tasks. For other kinds of tasks such as question answering, we observe that while MPT can outperform PT in most cases, it does not always outperform multi-task learning. We further provide an in-depth analysis from the perspective of task similarity.

arxiv情報

著者 Chengwei Qin,Shafiq Joty,Qian Li,Ruochen Zhao
発行日 2023-02-16 08:37:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク