要約
この研究では、ターゲット タスクを微調整するための事前トレーニング済み音声モデル (PSM) の伝達可能性を推定するための「スコアベースの評価」フレームワークを導入します。
ベイズ尤度推定と最適トランスポートという 2 つの表現理論を利用して、抽出された表現を使用して PSM 候補のランク スコアを生成します。
私たちのフレームワークは、時間的に独立した仮説を立てることで、候補モデルやレイヤーを実際に微調整することなく、転送可能性スコアを効率的に計算します。
私たちは、公開データを使用して、クロスレイヤーおよびクロスモデル設定で、いくつかの人気のある教師あり音声モデル (例: Conformer RNN-Transducer) と自己教師あり音声モデル (例: HuBERT) を評価します。
実験結果は、私たちの推定フレームワークと微調整されたグラウンドトゥルースの間の高いスピアマン順位相関と低い $p$ 値を示しています。
私たちが提案する転送可能フレームワークは、必要な計算時間とリソースが少なく、音声基盤モデルを調整するためのリソースを節約し、時間効率の高いアプローチになります。
要約(オリジナル)
In this work, we introduce a ‘score-based assessment’ framework for estimating the transferability of pre-trained speech models (PSMs) for fine-tuning target tasks. We leverage upon two representation theories, Bayesian likelihood estimation and optimal transport, to generate rank scores for the PSM candidates using the extracted representations. Our framework efficiently computes transferability scores without actual fine-tuning of candidate models or layers by making a temporal independent hypothesis. We evaluate some popular supervised speech models (e.g., Conformer RNN-Transducer) and self-supervised speech models (e.g., HuBERT) in cross-layer and cross-model settings using public data. Experimental results show a high Spearman’s rank correlation and low $p$-value between our estimation framework and fine-tuning ground truth. Our proposed transferability framework requires less computational time and resources, making it a resource-saving and time-efficient approach for tuning speech foundation models.
arxiv情報
著者 | Zih-Ching Chen,Chao-Han Huck Yang,Bo Li,Yu Zhang,Nanxin Chen,Shou-Yiin Chang,Rohit Prabhavalkar,Hung-yi Lee,Tara N. Sainath |
発行日 | 2023-08-25 13:50:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google