Comparative layer-wise analysis of self-supervised speech models

要約

事前トレーニングの目的、入力モダリティ、および事前トレーニング データが異なる多くの自己教師あり音声モデルが、ここ数年で提案されています。
ダウンストリーム タスクで印象的な成功を収めたにもかかわらず、モデルによってエンコードされたプロパティとモデル間の違いについての理解はまだ限られています。
この作業では、さまざまな最近のモデルの中間表現を調べます。
具体的には、標準相関分析 (CCA) に基づく軽量の分析ツールを使用して、個々のレイヤーにエンコードされた音響、音声、および単語レベルのプロパティを測定します。
これらのプロパティは、モデルに応じてレイヤー全体で異なる方法で進化し、バリエーションはトレーニング前の目的の選択に関連していることがわかりました。
プロパティの傾向を音声認識および音声言語理解タスクのパフォーマンスと比較することにより、下流のタスクに対する分析の有用性をさらに調査します。
CCA の傾向は、ダウンストリーム タスクに関心のある層を選択するための信頼できるガイダンスを提供し、単一層のパフォーマンスは多くの場合、すべての層を使用した場合と同等または向上することを発見し、事前トレーニング済みモデルのより効率的な使用への影響を示唆しています。

要約(オリジナル)

Many self-supervised speech models, varying in their pre-training objective, input modality, and pre-training data, have been proposed in the last few years. Despite impressive successes on downstream tasks, we still have a limited understanding of the properties encoded by the models and the differences across models. In this work, we examine the intermediate representations for a variety of recent models. Specifically, we measure acoustic, phonetic, and word-level properties encoded in individual layers, using a lightweight analysis tool based on canonical correlation analysis (CCA). We find that these properties evolve across layers differently depending on the model, and the variations relate to the choice of pre-training objective. We further investigate the utility of our analyses for downstream tasks by comparing the property trends with performance on speech recognition and spoken language understanding tasks. We discover that CCA trends provide reliable guidance to choose layers of interest for downstream tasks and that single-layer performance often matches or improves upon using all layers, suggesting implications for more efficient use of pre-trained models.

arxiv情報

著者 Ankita Pasad,Bowen Shi,Karen Livescu
発行日 2023-03-16 22:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク