Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity

要約

LinformerやMambaなどのアーキテクチャは、最近、変圧器の競合的な線形時間置換として浮上しています。
ただし、特に非テキストドメインでは、対応する大規模な事前に保護されたモデルは利用できないことがよくあります。
これを改善するために、トランスモデルを共同で線形時間代替に変換し、それをターゲットタスクに微調整するクロスアーキテクチャ層状蒸留(CALD)アプローチを提示します。
また、いくつかの手段を比較して、微調整を導き、元のモデルから望ましい推論機能を最適に保持します。
方法は、ターゲットモデルの使用とパラメーターの軌跡が異なります。
言語処理、言語モデリング、音声処理に関する一連の実証研究では、CALDが元のモデルの結果を効果的に回復できること、およびガイド戦略が結果に貢献できることを示しています。
バリエーションのいくつかの理由が提案されています。

要約(オリジナル)

Architectures such as Linformer and Mamba have recently emerged as competitive linear time replacements for transformers. However, corresponding large pretrained models are often unavailable, especially in non-text domains. To remedy this, we present a Cross-Architecture Layerwise Distillation (CALD) approach that jointly converts a transformer model to a linear time substitute and fine-tunes it to a target task. We also compare several means to guide the fine-tuning to optimally retain the desired inference capability from the original model. The methods differ in their use of the target model and the trajectory of the parameters. In a series of empirical studies on language processing, language modeling, and speech processing, we show that CALD can effectively recover the result of the original model, and that the guiding strategy contributes to the result. Some reasons for the variation are suggested.

arxiv情報

著者 Mutian He,Philip N. Garner
発行日 2025-03-13 16:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク