Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity

要約

最近、Linformer や Mamba などのアーキテクチャが、トランスフォーマーの競争力のある線形時間代替として登場しました。
ただし、特に非テキスト ドメインでは、対応する大規模な事前トレーニング済みモデルが利用できないことがよくあります。
これを解決するために、変換モデルを線形時間代替モデルに共同変換し、それをターゲット タスクに合わせて微調整するクロスアーキテクチャ層別蒸留 (CALD) アプローチを紹介します。
また、元のモデルから必要な推論機能を最適に維持するための微調整をガイドするためのいくつかの手段も比較します。
これらの方法は、ターゲット モデルの使用とパラメータの軌跡が異なります。
言語処理、言語モデリング、および音声処理に関する一連の実証研究で、CALD が元のモデルの結果を効果的に復元できること、およびガイド戦略が結果に寄与していることを示します。
変動の理由はいくつか考えられます。

要約(オリジナル)

Architectures such as Linformer and Mamba have recently emerged as competitive linear time replacements for transformers. However, corresponding large pretrained models are often unavailable, especially in non-text domains. To remedy this, we present a Cross-Architecture Layerwise Distillation (CALD) approach that jointly converts a transformer model to a linear time substitute and fine-tunes it to a target task. We also compare several means to guide the fine-tuning to optimally retain the desired inference capability from the original model. The methods differ in their use of the target model and the trajectory of the parameters. In a series of empirical studies on language processing, language modeling, and speech processing, we show that CALD can effectively recover the result of the original model, and that the guiding strategy contributes to the result. Some reasons for the variation are suggested.

arxiv情報

著者 Mutian He,Philip N. Garner
発行日 2024-12-23 13:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク