Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization

要約

大規模な基礎モデルはどこにでも普及しつつありますが、それらをゼロからトレーニングするには法外にコストがかかります。
したがって、これらの強力なモデルを下流のタスクに効率的に適応させることがますます重要になります。
この論文では、下流のタスク適応のための原則に基づいた微調整パラダイムである直交微調整 (OFT) を研究します。
OFT は良好な一般化可能性を示していますが、直交行列の次元が高いため、依然としてかなり多数のトレーニング可能なパラメーターを使用します。
これに対処するために、まず情報伝送の観点から OFT を検討し、次にパラメータ効率の向上を可能にするいくつかの重要な要望を特定します。
Cooley-Tukey 高速フーリエ変換アルゴリズムが効率的な情報伝達を可能にする方法からインスピレーションを得て、バタフライ構造を使用した効率的な直交パラメータ化を提案します。
このパラメータ化を OFT に適用し、直交バタフライ (BOFT) と呼ばれる新しいパラメータ効率の高い微調整方法を作成します。
OFT を特別なケースとして包含することにより、BOFT は一般化された直交微調整フレームワークを導入します。
最後に、大規模な視覚変換器、大規模な言語モデル、テキストから画像への拡散モデルを視覚と言語におけるさまざまな下流タスクに適応させる広範な実証研究を実施します。

要約(オリジナル)

Large foundation models are becoming ubiquitous, but training them from scratch is prohibitively expensive. Thus, efficiently adapting these powerful models to downstream tasks is increasingly important. In this paper, we study a principled finetuning paradigm — Orthogonal Finetuning (OFT) — for downstream task adaptation. Despite demonstrating good generalizability, OFT still uses a fairly large number of trainable parameters due to the high dimensionality of orthogonal matrices. To address this, we start by examining OFT from an information transmission perspective, and then identify a few key desiderata that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast Fourier transform algorithm enables efficient information transmission, we propose an efficient orthogonal parameterization using butterfly structures. We apply this parameterization to OFT, creating a novel parameter-efficient finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a special case, BOFT introduces a generalized orthogonal finetuning framework. Finally, we conduct an extensive empirical study of adapting large vision transformers, large language models, and text-to-image diffusion models to various downstream tasks in vision and language.

arxiv情報

著者 Weiyang Liu,Zeju Qiu,Yao Feng,Yuliang Xiu,Yuxuan Xue,Longhui Yu,Haiwen Feng,Zhen Liu,Juyeon Heo,Songyou Peng,Yandong Wen,Michael J. Black,Adrian Weller,Bernhard Schölkopf
発行日 2023-11-10 18:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク