Enhancing Few-Shot Transfer Learning with Optimized Multi-Task Prompt Tuning through Modular Prompt Composition

要約

近年、マルチタスク プロンプト チューニングは、その固有のモジュール性と、さまざまなタスクにわたってパラメーター効率の高い転移学習を強化できる可能性があるため、大きな注目を集めています。
このペーパーは、マルチタスク設定における対応するプロンプト間の知識の伝達を容易にすることにより、複数のタスクのパフォーマンスを分析し、改善することを目的としています。
私たちが提案するアプローチは、各ターゲット タスクのプロンプトを共有プロンプト (ソース プロンプト) とタスク固有のプロンプト (プライベート プロンプト) の組み合わせに分解します。
トレーニング中に、ソース プロンプトは微調整され、プライベート プロンプトと統合されて、各タスクのターゲット プロンプトを駆動します。
ソース プロンプトを組み合わせてターゲット プロンプトを構築するための複数の方法を提示して比較し、各方法内でのソース プロンプトとプライベート プロンプトの両方の役割を分析します。
私たちはタスクのパフォーマンスに対するそれらの貢献を調査し、パフォーマンスを最適化するためにこれらの洞察に基づいて柔軟で調整可能な構成を提供します。
私たちの経験的調査結果は、迅速なチューニングと関連作業の従来の実践と比較して、精度と堅牢性が向上していることを明確に示しています。
特に、私たちの結果は、数ショット設定において現場の他の方法よりも大幅に優れており、特に GLUE ベンチマーク全体のさまざまなタスクで優れたパフォーマンスを示しています。
この成果は、トレーニング データの量を大幅に削減して達成されており、私たちの方法はショット数の少ない設定で有望な方法となっています。

要約(オリジナル)

In recent years, multi-task prompt tuning has garnered considerable attention for its inherent modularity and potential to enhance parameter-efficient transfer learning across diverse tasks. This paper aims to analyze and improve the performance of multiple tasks by facilitating the transfer of knowledge between their corresponding prompts in a multi-task setting. Our proposed approach decomposes the prompt for each target task into a combination of shared prompts (source prompts) and a task-specific prompt (private prompt). During training, the source prompts undergo fine-tuning and are integrated with the private prompt to drive the target prompt for each task. We present and compare multiple methods for combining source prompts to construct the target prompt, analyzing the roles of both source and private prompts within each method. We investigate their contributions to task performance and offer flexible, adjustable configurations based on these insights to optimize performance. Our empirical findings clearly showcase improvements in accuracy and robustness compared to the conventional practice of prompt tuning and related works. Notably, our results substantially outperform other methods in the field in few-shot settings, demonstrating superior performance in various tasks across GLUE benchmark, among other tasks. This achievement is attained with a significantly reduced amount of training data, making our method a promising one for few-shot settings.

arxiv情報

著者 Ahmad Pouramini,Hesham Faili
発行日 2024-08-23 17:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク