Group and Shuffle: Efficient Structured Orthogonal Parametrization

要約

ニューラル ネットワークのサイズが増大するにつれて、効率的な微調整方法に対する需要が高まっています。
最近、直交行列を使用して事前トレーニング済みモデルの重みを調整する直交微調整パラダイムが導入されました。
この論文では、以前の研究からの構造化クラスを統合および一般化する、構造化行列の新しいクラスを導入します。
このクラスのプロパティを調べて、それに基づいて構造化された直交パラメータ化を構築します。
次に、このパラメータ化を使用して直交微調整フレームワークを変更し、パラメータと計算効率を向上させます。
私たちは、テキストから画像への拡散モデルの適応や言語モデリングにおける下流タスクの微調整など、さまざまな領域でメソッドを経験的に検証します。
さらに、直交畳み込みに構築を適応させ、1-リプシッツ ニューラル ネットワークを使用した実験を行います。

要約(オリジナル)

The increasing size of neural networks has led to a growing demand for methods of efficient fine-tuning. Recently, an orthogonal fine-tuning paradigm was introduced that uses orthogonal matrices for adapting the weights of a pretrained model. In this paper, we introduce a new class of structured matrices, which unifies and generalizes structured classes from previous works. We examine properties of this class and build a structured orthogonal parametrization upon it. We then use this parametrization to modify the orthogonal fine-tuning framework, improving parameter and computational efficiency. We empirically validate our method on different domains, including adapting of text-to-image diffusion models and downstream task fine-tuning in language modeling. Additionally, we adapt our construction for orthogonal convolutions and conduct experiments with 1-Lipschitz neural networks.

arxiv情報

著者 Mikhail Gorbunov,Nikolay Yudin,Vera Soboleva,Aibek Alanov,Alexey Naumov,Maxim Rakhuba
発行日 2024-06-14 13:29:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.NA, math.NA パーマリンク