要約
パラメーター効率の高いチューニングは、事前トレーニング済みのモデルをダウンストリーム タスクに適応させるときに、パラメーターの小さなサブセットのみを更新することを目的としています。
この作業では、Transformer ベースのモデルの各レイヤーで自己注意モジュールの前に、特別なトークン表現 (BERT の [SEP] と [CLS] など) のみを変更する PASTA を紹介します。
PASTA は、トレーニングされたパラメーター全体の最大 0.029% のみで、テキスト分類や NER などの自然言語理解タスクで完全な微調整に匹敵するパフォーマンスを達成します。
私たちの仕事は、パラメーター効率の高いチューニングのシンプルで効果的な方法を提供するだけでなく、複数のタスク用に微調整されたモデルを展開するときに幅広い実用的なアプリケーションを提供するだけでなく、事前トレーニング済みの言語モデルにおける特別なトークンの重要な役割を示します
要約(オリジナル)
Parameter-efficient tuning aims at updating only a small subset of parameters when adapting a pretrained model to downstream tasks. In this work, we introduce PASTA, in which we only modify the special token representations (e.g., [SEP] and [CLS] in BERT) before the self-attention module at each layer in Transformer-based models. PASTA achieves comparable performance to full finetuning in natural language understanding tasks including text classification and NER with up to only 0.029% of total parameters trained. Our work not only provides a simple yet effective way of parameter-efficient tuning, which has a wide range of practical applications when deploying finetuned models for multiple tasks, but also demonstrates the pivotal role of special tokens in pretrained language models
arxiv情報
著者 | Xiaocong Yang,James Y. Huang,Wenxuan Zhou,Muhao Chen |
発行日 | 2023-02-14 17:31:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google