Analyzing Acoustic Word Embeddings from Pre-trained Self-supervised Speech Models

要約

さまざまなタスクでの自己教師ありモデルの強力な結果を考えると、可変長の話し言葉セグメントを表す固定次元ベクトルである音響単語埋め込み (AWE) の自己教師あり表現を調査する研究は驚くほど少ないです。
この作業では、自己教師あり表現を使用して AWE を構築するためのいくつかの事前トレーニング済みモデルとプーリング方法を研究します。
自己教師あり表現のコンテキスト化された性質により、平均化などの単純なプーリング手法は、AWE の構築にすでに役立つ可能性があるという仮説を立てています。
標準的な単語識別タスクを評価すると、平均プーリングを使用した HuBERT 表現が英語の AWE の最先端に匹敵することがわかります。
さらに驚くべきことに、英語のみでトレーニングされているにもかかわらず、Xitsonga、北京語、およびフランス語で評価された HuBERT 表現は、一貫して多言語モデル XLSR-53 (および英語でトレーニングされた Wav2Vec 2.0) よりも優れています。

要約(オリジナル)

Given the strong results of self-supervised models on various tasks, there have been surprisingly few studies exploring self-supervised representations for acoustic word embeddings (AWE), fixed-dimensional vectors representing variable-length spoken word segments. In this work, we study several pre-trained models and pooling methods for constructing AWEs with self-supervised representations. Owing to the contextualized nature of self-supervised representations, we hypothesize that simple pooling methods, such as averaging, might already be useful for constructing AWEs. When evaluating on a standard word discrimination task, we find that HuBERT representations with mean-pooling rival the state of the art on English AWEs. More surprisingly, despite being trained only on English, HuBERT representations evaluated on Xitsonga, Mandarin, and French consistently outperform the multilingual model XLSR-53 (as well as Wav2Vec 2.0 trained on English).

arxiv情報

著者 Ramon Sanabria,Hao Tang,Sharon Goldwater
発行日 2023-03-14 19:31:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク