Word Discovery in Visually Grounded, Self-Supervised Speech Models

要約

視覚に基づいた話し言葉の発見方法を紹介します。
HuBERT または wav2vec2.0 モデルをトレーニングして音声キャプションを自然画像に関連付けた後、強力な単語のセグメンテーションとクラスタリングの機能がモデルの自己注意ヘッド内に出現することを示します。
私たちの実験では、この能力がベースの HuBERT モデルと wav2vec2.0 モデルにはほぼ同じ程度には存在しないことが明らかになり、視覚的グラウンディング タスクが私たちが観察した単語発見能力の重要な要素であることを示唆しています。
また、Buckeye 単語セグメンテーションおよび ZeroSpeech 音声用語検出タスクに関するメソッドも評価しており、いくつかの指標において現在公開されているメソッドと同等かそれ以上のパフォーマンスを示しています。
コードとモデルの重みは、https://github.com/jasonppy/word-discovery で入手できます。

要約(オリジナル)

We present a method for visually-grounded spoken term discovery. After training either a HuBERT or wav2vec2.0 model to associate spoken captions with natural images, we show that powerful word segmentation and clustering capability emerges within the model’s self-attention heads. Our experiments reveal that this ability is not present to nearly the same extent in the base HuBERT and wav2vec2.0 models, suggesting that the visual grounding task is a crucial component of the word discovery capability we observe. We also evaluate our method on the Buckeye word segmentation and ZeroSpeech spoken term discovery tasks, where we perform on par with or better than currently published methods on several metrics. Code and model weights are available at https://github.com/jasonppy/word-discovery.

arxiv情報

著者 Puyuan Peng,David Harwath
発行日 2023-06-20 01:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク