Leveraging multilingual transfer for unsupervised semantic acoustic word embeddings

要約

音響単語埋め込み (AWE) は、同じ単語の異なる実現が同様の埋め込みを持つように音声コンテンツをエンコードする音声セグメントの固定次元ベクトル表現です。
このペーパーでは、セマンティック AWE モデリングについて検討します。
これらの AWE は、音声をキャプチャするだけでなく、単語の意味もキャプチャする必要があります (テキストの単語の埋め込みと同様)。
ターゲット言語での転写されていない音声のみがあるシナリオを考えます。
事前トレーニング済みの多言語 AWE モデル、つまりターゲットを除く複数の言語からのラベル付きデータでトレーニングされた音声 AWE モデルを活用するいくつかの戦略を導入します。
私たちの最良のセマンティック AWE アプローチには、多言語 AWE モデルを使用して単語セグメントをクラスタリングし、クラスター重心からソフト擬似単語ラベルを導出し、ソフト ベクトルでスキップグラムのようなモデルをトレーニングすることが含まれます。
セマンティクスを測定する本質的な単語類似性タスクでは、この多言語転送アプローチは、以前のすべてのセマンティクス AWE メソッドよりも優れたパフォーマンスを発揮します。
また、AWE がダウンストリームのセマンティックな例によるクエリ検索に使用できることも初めて示します。

要約(オリジナル)

Acoustic word embeddings (AWEs) are fixed-dimensional vector representations of speech segments that encode phonetic content so that different realisations of the same word have similar embeddings. In this paper we explore semantic AWE modelling. These AWEs should not only capture phonetics but also the meaning of a word (similar to textual word embeddings). We consider the scenario where we only have untranscribed speech in a target language. We introduce a number of strategies leveraging a pre-trained multilingual AWE model — a phonetic AWE model trained on labelled data from multiple languages excluding the target. Our best semantic AWE approach involves clustering word segments using the multilingual AWE model, deriving soft pseudo-word labels from the cluster centroids, and then training a Skipgram-like model on the soft vectors. In an intrinsic word similarity task measuring semantics, this multilingual transfer approach outperforms all previous semantic AWE methods. We also show — for the first time — that AWEs can be used for downstream semantic query-by-example search.

arxiv情報

著者 Christiaan Jacobs,Herman Kamper
発行日 2023-07-05 07:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク