要約
大規模な事前トレーニング済み言語モデル (PLM) に基づく斬新で効果的な微調整パラダイムとして、プロンプト チューニングは、下流のタスクと事前トレーニングの目標との間のギャップを減らすことを目的としています。
プロンプト チューニングはさまざまなタスクで継続的な進歩をもたらしてきましたが、このようなアプローチには依然として根強い欠陥が残っています。プロンプト チューニング手法は特定の少数ショット パターンに一般化できません。
分布分析の観点から、この現象の背後にある本質的な問題は、PLM に含まれる過剰な概念的知識とターゲットの下流ドメインの要約された知識であることを明らかにします。これらの結果、PLM は、対応する知識分布の位置を誤って見つけることになります。
普遍的な知識を埋め込む空間におけるターゲットドメイン。
この目的を達成するために、私たちは下流タスクの要約されていないターゲット ドメインを偏りのない方法で近似することを直観的に探索し、そのようなドメインを抽象化して識別プロンプトを生成し、それによって PLM に曖昧さを解消するガイダンスを提供します。
このような直観に導かれて、我々は、ドメインに無関係な知識からの干渉に対してドメイン識別情報を含むプロンプトを学習するための、シンプルかつ効果的なアプローチ、すなわち BayesPrompt を提案します。
BayesPrompt は、既知の分布を原始的に利用してターゲット ドメインの偏りを除いた事実の分布を近似し、さらに近似された分布から特定の代表的な特徴を均一にサンプリングして、PLM の最終的なプロンプトを生成します。
ドメイン適応との関連で理論的な洞察を提供します。
経験的に、私たちの方法はベンチマークで最先端のパフォーマンスを達成します。
要約(オリジナル)
As a novel and effective fine-tuning paradigm based on large-scale pre-trained language models (PLMs), prompt-tuning aims to reduce the gap between downstream tasks and pre-training objectives. While prompt-tuning has yielded continuous advancements in various tasks, such an approach still remains a persistent defect: prompt-tuning methods fail to generalize to specific few-shot patterns. From the perspective of distribution analyses, we disclose that the intrinsic issues behind the phenomenon are the over-multitudinous conceptual knowledge contained in PLMs and the abridged knowledge for target downstream domains, which jointly result in that PLMs mis-locate the knowledge distributions corresponding to the target domains in the universal knowledge embedding space. To this end, we intuitively explore to approximate the unabridged target domains of downstream tasks in a debiased manner, and then abstract such domains to generate discriminative prompts, thereby providing the de-ambiguous guidance for PLMs. Guided by such an intuition, we propose a simple yet effective approach, namely BayesPrompt, to learn prompts that contain the domain discriminative information against the interference from domain-irrelevant knowledge. BayesPrompt primitively leverages known distributions to approximate the debiased factual distributions of target domains and further uniformly samples certain representative features from the approximated distributions to generate the ultimate prompts for PLMs. We provide theoretical insights with the connection to domain adaptation. Empirically, our method achieves state-of-the-art performance on benchmarks.
arxiv情報
著者 | Jiangmeng Li,Fei Song,Yifan Jin,Wenwen Qiang,Changwen Zheng,Fuchun Sun,Hui Xiong |
発行日 | 2024-01-25 13:20:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google