A Quantitative Approach to Understand Self-Supervised Models as Cross-lingual Feature Extractors

要約

この研究では、言語を超えたコンテキストで英語の自己教師あり学習 (SSL) モデルによって抽出された特徴を研究し、特徴表現の品質を予測するための新しい指標を提案します。
下流タスクとして自動音声認識 (ASR) を使用して、トポロジー的に多様なコーパスのセットの特徴抽出器としてのモデルのパフォーマンスに対するモデル サイズ、トレーニング目標、モデル アーキテクチャの影響を分析します。
私たちは、深い一般化された正準相関分析を使用して、抽出された表現内の音声情報と合成情報を測定するための新しい指標である音声構文比 (PSR) を開発しました。
結果は、wav2vec2.0 対物レンズのコントラスト損失により、より効果的な言語間特徴抽出が促進されることを示しています。
PSR スコアと ASR パフォーマンスの間には正の相関関係があり、単一言語 SSL モデルによって抽出された音声情報が、言語をまたがる設定での下流タスクに使用できることを示唆しています。
提案されたメトリックは、表現の品質を示す効果的な指標であり、モデルの選択に役立ちます。

要約(オリジナル)

In this work, we study the features extracted by English self-supervised learning (SSL) models in cross-lingual contexts and propose a new metric to predict the quality of feature representations. Using automatic speech recognition (ASR) as a downstream task, we analyze the effect of model size, training objectives, and model architecture on the models’ performance as a feature extractor for a set of topologically diverse corpora. We develop a novel metric, the Phonetic-Syntax Ratio (PSR), to measure the phonetic and synthetic information in the extracted representations using deep generalized canonical correlation analysis. Results show the contrastive loss in the wav2vec2.0 objective facilitates more effective cross-lingual feature extraction. There is a positive correlation between PSR scores and ASR performance, suggesting that phonetic information extracted by monolingual SSL models can be used for downstream tasks in cross-lingual settings. The proposed metric is an effective indicator of the quality of the representations and can be useful for model selection.

arxiv情報

著者 Shuyue Stella Li,Beining Xu,Xiangyu Zhang,Hexin Liu,Wenhan Chao,Leibny Paola Garcia
発行日 2023-11-27 15:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク