要約
この論文では、トランスフォーマーをベイジアン ネット上で実行される高密度期待値最大化アルゴリズムとしてどのように解釈できるかを示します。
上記の解釈に基づいて、パフォーマンスを維持しながらパラメータ数を大幅に削減する新しいモデル設計パラダイム、つまり垂直 LoRA (VLoRA) を提案します。
VLoRA では、モデルはレイヤーで構成され、各レイヤーは前のレイヤーに基づいて増分を再帰的に学習します。
次に、LoRA 分解を増分に適用します。
VLoRA は、LoRA と直交する基本モデルで動作します。つまり、LoRA を一緒に使用できます。
さまざまなタスクやモデルについて実験を行います。
結果は、1) VLoRA を使用すると、Transformer モデルのパラメーター数を大幅に削減できること、2) 元のモデルのパフォーマンスが維持されることを示しています。
ソース コードは \url{https://github.com/neverUseThisName/vlora} で入手できます。
要約(オリジナル)
In this paper, we show how Transformers can be interpreted as dense Expectation-Maximization algorithms performed on Bayesian Nets. Based on the above interpretation, we propose a new model design paradigm, namely Vertical LoRA (VLoRA), which reduces the parameter count dramatically while preserving performance. In VLoRA, a model consists of layers, each of which recursively learns an increment based on the previous layer. We then apply LoRA decomposition to the increments. VLoRA works on the base model, which is orthogonal to LoRA, meaning they can be used together. We do experiments on various tasks and models. The results show that 1) with VLoRA, the Transformer model parameter count can be reduced dramatically and 2) the performance of the original model is preserved. The source code is available at \url{https://github.com/neverUseThisName/vlora}
arxiv情報
著者 | Zhuolin Fu |
発行日 | 2024-06-13 16:51:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google