要約
これは、パラメータ空間あるいは活性化空間における単純な因数分解行列乗算として定式化することができ、したがって、組み込みの解釈可能性を包含する。重みを持つ事前学習された層に対して、GIFTは学習する、ここで、$mathbb{I}$は恒等行列である。Theta=(\phi, \psi)$ はGIFTの2つの線形層の学習可能なパラメータであり、$r$はハイパーパラメータである。Theta$ は、微調整のために選択された全ての層で共有され、Low-Rank Adaptation (LoRA) と比較して、学習可能なパラメータが大幅に少なくなる。自然言語タスク(常識的推論とシーケンス分類)とコンピュータビジョンタスク(視覚的細目分類)で包括的な評価を行う。LLaMA-1(7B)とLlama-2(7B)/-3(8B)を用いたコモンセンス推論ベンチマーク(Commonsense170k)と、Vision Transformer(ViT-B/16)を事前に学習させたImageNet-21kを用いた視覚認識ベンチマーク(FGVC)とVTABにおいて、ベースライン間で最高の精度とパラメータ効率を得る。特に、Llama-3(8B)を用いたCommonsense170kでは、LoRAと比較して53.8倍のパラメータ削減で5.9%の絶対精度向上が得られた。RoBERTa-Base/Largeを用いたGLUEベンチマークでは、LoRAに匹敵する性能が得られるが、パラメータは大幅に減少する。最初の線形層の出力(すなわち、$omega Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ Γ)は驚くほど解釈可能であり、コンピュータビジョン課題において画像中の意味のある物体/部分を局在化するための副産物として、トークン・クラスタリング・ヘッドの役割を果たすことができる。我々のコードは公開されている。
要約(オリジナル)
We present Generative Interpretable Fine-Tuning (GIFT) for parameter-efficient fine-tuning of pretrained Transformer backbones, which can be formulated as a simple factorized matrix multiplication in the parameter space or equivalently in the activation space, and thus embraces built-in interpretability. For a pretrained layer with weights $\omega\in \mathbb{R}^{d_{out}\times d_{in}}$, our proposed GIFT learns the fine-tuned weights $\hat{\omega}$ directly from $\omega$ as $\hat{\omega}=\omega \cdot (\mathbb{I}+\phi_{d_{in}\times r}\cdot \psi_{r\times d_{in}})$ where $\mathbb{I}$ is an identity matrix. $\Theta=(\phi, \psi)$ are the learnable parameters of the two linear layers of GIFT with $r$ being a hyper-parameter. $\Theta$ is shared by all the layers selected for fine-tuning, resulting in significantly fewer trainable parameters compared to Low-Rank Adaptation (LoRA). We perform comprehensive evaluations on natural language tasks (commonsense reasoning and sequence classification) and computer vision tasks (visual fine-grained classification). We obtain the best accuracy and parameter efficiency among baselines both on the Commonsense170k reasoning benchmark using LLaMA-1 (7B) and Llama-2 (7B)/-3 (8B) and on the FGVC and VTAB visual recognition benchmarks using ImageNet-21k pretrained Vision Transformer (ViT-B/16). Notably, we obtain 5.9% absolute increase in average accuracy with 53.8 times reduction of parameters on Commonsense170k using Llama-3 (8B) compared to LoRA. We obtain performance comparable to LoRA on the GLUE benchmark but with significantly fewer parameters using RoBERTa-Base/Large. We show the output of the first linear layer (i.e., $\omega\cdot \phi$) is surprisingly interpretable, which can play the role of a token-clustering head as a by-product to localize meaningful objects/parts in images for computer vision tasks. Our code is publicly available.
arxiv情報
著者 | Chinmay Savadikar,Xi Song,Tianfu Wu |
発行日 | 2024-06-03 17:57:39+00:00 |
arxivサイト | arxiv_id(pdf) |