Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation

要約

モジュラーディープラーニングの台頭により、さまざまな自然言語処理アプリケーションにおけるその可能性が示されています。
パラメータ効率の良い微調整 (PEFT) モジュール方式は、ドメイン適応から多言語セットアップまで、さまざまなユースケースで機能することが示されています。
ただし、この作業はすべて、モジュール式コンポーネントが 1 つの事前トレーニング済み言語モデル (PLM) 内でトレーニングおよびデプロイされる場合を対象としています。
このモデル固有の設定は、モジュラー アーキテクチャが達成しようとしているモジュール性そのものに対する実質的な制限になります。
現在のモジュール型アプローチがモデル間で移行可能かどうか、そしてより堅牢で大規模な PLM から小規模な PLM にモジュールを移行できるかどうかを検討します。
この研究では、モデル圧縮に一般的に使用される知識蒸留のレンズを介してこのギャップを埋めることを目的としており、事前トレーニングされたタスク固有の PEFT モジュールを同じファミリー PLM 間で転送するための非常に簡単なアプローチを提示します。
さらに、推論の複雑さを変えることなく、互換性のない PLM 間でモジュールを転送できる方法を提案します。
複数の言語と PEFT メソッドを使用した固有表現認識、自然言語推論、言い換え識別タスクに関する実験では、転送可能なモジュール性の初期の可能性が示されています。

要約(オリジナル)

The rise of Modular Deep Learning showcases its potential in various Natural Language Processing applications. Parameter-efficient fine-tuning (PEFT) modularity has been shown to work for various use cases, from domain adaptation to multilingual setups. However, all this work covers the case where the modular components are trained and deployed within one single Pre-trained Language Model (PLM). This model-specific setup is a substantial limitation on the very modularity that modular architectures are trying to achieve. We ask whether current modular approaches are transferable between models and whether we can transfer the modules from more robust and larger PLMs to smaller ones. In this work, we aim to fill this gap via a lens of Knowledge Distillation, commonly used for model compression, and present an extremely straightforward approach to transferring pre-trained, task-specific PEFT modules between same-family PLMs. Moreover, we propose a method that allows the transfer of modules between incompatible PLMs without any change in the inference complexity. The experiments on Named Entity Recognition, Natural Language Inference, and Paraphrase Identification tasks over multiple languages and PEFT methods showcase the initial potential of transferable modularity.

arxiv情報

著者 Mateusz Klimaszewski,Piotr Andruszkiewicz,Alexandra Birch
発行日 2024-03-27 17:50:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク