要約
音声翻訳のための大規模なオーディオ言語モデルの効率的な展開は、重要な計算要件のために依然として困難です。
このホワイトペーパーでは、この課題は、音声言語翻訳に関する国際会議(IWSLT 2025)での「モデル圧縮」トラックへのシステムの提出を通じて対処します。
層の重要性評価、4ビット量子化による低ランク適応(Qlora)、および知識の蒸留に基づいた反復層剪定などのアプローチの組み合わせを実験します。
私たちの実験では、ドイツ語と中国語への音声翻訳には、QWEN2-Audio-7B-Instructを使用しています。
剪定された(学生)モデルは、モデルパラメーターとストレージフットプリントの両方を最大50%削減し、領域内(教師)モデルの翻訳品質の97〜100%を保持しています。
要約(オリジナル)
Efficient deployment of large audio-language models for speech translation remains challenging due to their significant computational requirements. In this paper, we address this challenge through our system submissions to the ‘Model Compression’ track at the International Conference on Spoken Language Translation (IWSLT 2025). We experiment with a combination of approaches including iterative layer pruning based on layer importance evaluation, low-rank adaptation with 4-bit quantization (QLoRA), and knowledge distillation. In our experiments, we use Qwen2-Audio-7B-Instruct for speech translation into German and Chinese. Our pruned (student) models achieve up to a 50% reduction in both model parameters and storage footprint, while retaining 97-100% of the translation quality of the in-domain (teacher) models.
arxiv情報
著者 | Yasmin Moslem |
発行日 | 2025-05-26 17:17:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google