Assessing the Portability of Parameter Matrices Trained by Parameter-Efficient Finetuning Methods

要約

大規模な言語モデルのトレーニングにかかる​​コストが増大するにつれて、以前に学習した知識を再利用することへの関心も高まっています。
転移学習法は、タスク固有ではない知識の再利用が、その後のタスク固有の学習にどのように役立つかを示しています。
このペーパーでは、その逆、つまりタスク固有の知識をエンコードする機能モジュール全体をあるモデルから別のモデルに移植することを調査します。
私たちは、センチメント分析をタスク例として使用して、パラメーター効率的微調整 (PEFT) 手法によってトレーニングされたモジュールの移植性をテストするために、1,440 回のトレーニング/テスト実行で構成される調査を設計しました。
私たちは、さまざまな PEFT テクニックやさまざまな事前トレーニング済みホスト モデルなど、幅広いシナリオで移植性をテストします。
移植されたモジュールのパフォーマンスを、(i) 最初から、および (ii) 移植されたモジュールと同じ分布からサンプリングされたパラメータからトレーニングされた同等のモジュールのパフォーマンスと比較します。
移植されたモジュールは、テストした 2 つの代替モジュールよりもはるかに優れたパフォーマンスを示していますが、4 つの PEFT 技術間には興味深いパフォーマンスの違いがあることがわかりました。
私たちは、PEFT 技術によって生成される、構造的にモジュール化されたパラメーターのセットの形式でのタスク固有の知識は移植性が高いと結論付けていますが、成功の程度は PEFT の種類と、事前学習済みモデルの作成元と受信側の違いに依存します。

要約(オリジナル)

As the cost of training ever larger language models has grown, so has the interest in reusing previously learnt knowledge. Transfer learning methods have shown how reusing non-task-specific knowledge can help in subsequent task-specific learning. In this paper, we investigate the inverse: porting whole functional modules that encode task-specific knowledge from one model to another. We designed a study comprising 1,440 training/testing runs to test the portability of modules trained by parameter-efficient finetuning (PEFT) techniques, using sentiment analysis as an example task. We test portability in a wide range of scenarios, involving different PEFT techniques and different pretrained host models, among other dimensions. We compare the performance of ported modules with that of equivalent modules trained (i) from scratch, and (ii) from parameters sampled from the same distribution as the ported module. We find that the ported modules far outperform the two alternatives tested, but that there are interesting performance differences between the four PEFT techniques. We conclude that task-specific knowledge in the form of structurally modular sets of parameters as produced by PEFT techniques is highly portable, but that degree of success depends on type of PEFT and on differences between originating and receiving pretrained models.

arxiv情報

著者 Mohammed Sabry,Anya Belz
発行日 2024-01-25 15:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク