LoTR: Low Tensor Rank Weight Adaptation

要約

本稿では、Transformerアーキテクチャに基づく大規模言語モデル(LLM)の低ランク適応(LoRA)のアイデアを一般化し、拡張する。LLMの微調整に広く用いられているLoRAのような手法は、勾配更新の行列分解に基づいている。我々は、LLMのパラメータ効率的な微調整のための新しいアプローチであるLoTRを導入する。LoTRは、パラメータへの勾配更新をテンソル分解の形で表現する。各層の低ランクアダプターは3つの行列の積として構成され、テンソル構造はこの積の左右の乗数を層間で共有することから生じる。低ランクテンソル表現と一連のレイヤーの同時圧縮により、LoTRは特にディープモデルにおいて、LoRAよりもさらに優れたパラメータ効率を実現する。さらに、コアテンソルは元の重み次元に依存せず、任意に小さくすることができるため、下流での微調整を極めて安価かつ高速に行うことができる。

要約(オリジナル)

In this paper we generalize and extend an idea of low-rank adaptation (LoRA) of large language models (LLMs) based on Transformer architecture. Widely used LoRA-like methods of fine-tuning LLMs are based on matrix factorization of gradient update. We introduce LoTR, a novel approach for parameter-efficient fine-tuning of LLMs which represents a gradient update to parameters in a form of tensor decomposition. Low-rank adapter for each layer is constructed as a product of three matrices, and tensor structure arises from sharing left and right multipliers of this product among layers. Simultaneous compression of a sequence of layers with low-rank tensor representation allows LoTR to archive even better parameter efficiency then LoRA especially for deep models. Moreover, the core tensor does not depend on original weight dimension and can be made arbitrary small, which allows for extremely cheap and fast downstream fine-tuning.

arxiv情報

著者 Daniel Bershatsky,Daria Cherniuk,Talgat Daulbaev,Aleksandr Mikhalev,Ivan Oseledets
発行日 2024-02-05 12:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク