GIFT: Generative Interpretable Fine-Tuning Transformers

要約

我々はGIFT(Generative Interpretable Fine-tuning Transformers)を提案する。GIFTは、事前に学習された(しばしば大規模な)Transformerモデルを、解釈可能性を組み込んだパラメータ効率の良い方法で、下流のタスクで微調整するための手法である。我々のGIFTは深いパラメータ残差学習法であり、事前学習されたTransformerモデルを微調整する際の2つの問題に対処する:すなわち、非常に軽量でありながら十分な表現力を持つパラメータ効率的微調整(PEFT)をどこに適用するか、そして、どのようにPEFTを学習し、事前学習されたモデルの知識をより直接的に活用するか、である。前者については、Transformerモデルの多頭自己注目における最終投影(線形)層を選択し、その有効性を検証する。後者については、ダウンストリームデータを用いたファインチューニングで学習される新しいモデルパラメータ(多くの場合、低ランク近似形式)を直接導入する先行技術とは対照的に、ファインチューニングパラメータを生成する学習方法を提案する。我々のGIFTは超変換器であり、投影層の事前学習されたパラメータを入力とし、提案するParameter-to-Cluster Attention (PaCa)を用いて微調整パラメータを生成する。PaCaの結果、単純なクラスタリングに基づく前方説明器が生成され、テストにおいて意味的セグメンテーションの役割を果たす。実験では、我々の提案するGIFTをVTABベンチマークと細目視覚分類(FGVC)ベンチマークでテストした。GIFTは先行技術よりも有意に優れた性能を得る。我々のコードはhttps://github.com/savadikarc/gift。

要約(オリジナル)

We present GIFT (Generative Interpretable Fine-tuning Transformers) for fine-tuning pretrained (often large) Transformer models at downstream tasks in a parameter-efficient way with built-in interpretability. Our GIFT is a deep parameter-residual learning method, which addresses two problems in fine-tuning a pretrained Transformer model: Where to apply the parameter-efficient fine-tuning (PEFT) to be extremely lightweight yet sufficiently expressive, and How to learn the PEFT to better exploit the knowledge of the pretrained model in a direct way? For the former, we select the final projection (linear) layer in the multi-head self-attention of a Transformer model, and verify its effectiveness. For the latter, in contrast to the prior art that directly introduce new model parameters (often in low-rank approximation form) to be learned in fine-tuning with downstream data, we propose a method for learning to generate the fine-tuning parameters. Our GIFT is a hyper-Transformer which take as input the pretrained parameters of the projection layer to generate its fine-tuning parameters using a proposed Parameter-to-Cluster Attention (PaCa). The PaCa results in a simple clustering-based forward explainer that plays the role of semantic segmentation in testing. In experiments, our proposed GIFT is tested on the VTAB benchmark and the fine-grained visual classification (FGVC) benchmark. It obtains significantly better performance than the prior art. Our code is available at https://github.com/savadikarc/gift

arxiv情報

著者 Chinmay Savadikar,Xi Song,Tianfu Wu
発行日 2023-12-01 16:33:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク