PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques

要約

PEFT(Parameter-Efficient Fine-Tuning)は、音声処理における効果的な手法として認知されつつある。しかし、PEFT手法の最適なアプローチと配置については、まだ結論が出ていない。本研究では、様々なPEFT手法と、DARTS(Differentiable Architecture Search)を適応させたレイヤーごとの配置を比較するための広範な実験を行う。また、多様なPEFT戦略を活用するためのアンサンブル学習の使用についても検討する。その結果、DARTSは自己教師あり学習(SSL)モデルの全層に同じPEFT法を挿入するベースラインアプローチを上回らないことが明らかになった。対照的に、アンサンブル学習アプローチ、特に多数決を採用したアプローチは優れた性能を示す。我々の統計的証拠は、異なるPEFT手法が様々な方法で学習することを示している。このばらつきは、アンサンブル学習による様々なPEFT手法の相乗的統合が、個々のレイヤーごとの最適化と比較して、より効果的にそれぞれのユニークな学習能力を活用できる理由を説明するかもしれない。

要約(オリジナル)

Parameter-Efficient Fine-Tuning (PEFT) is increasingly recognized as an effective method in speech processing. However, the optimal approach and the placement of PEFT methods remain inconclusive. Our study conducts extensive experiments to compare different PEFT methods and their layer-wise placement adapting Differentiable Architecture Search (DARTS). We also explore the use of ensemble learning to leverage diverse PEFT strategies. The results reveal that DARTS does not outperform the baseline approach, which involves inserting the same PEFT method into all layers of a Self-Supervised Learning (SSL) model. In contrast, an ensemble learning approach, particularly one employing majority voting, demonstrates superior performance. Our statistical evidence indicates that different PEFT methods learn in varied ways. This variation might explain why the synergistic integration of various PEFT methods through ensemble learning can harness their unique learning capabilities more effectively compared to individual layer-wise optimization.

arxiv情報

著者 Tzu-Han Lin,How-Shing Wang,Hao-Yung Weng,Kuang-Chen Peng,Zih-Ching Chen,Hung-yi Lee
発行日 2024-01-04 08:11:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク