Integrating Self-supervised Speech Model with Pseudo Word-level Targets from Visually-grounded Speech Model

要約

自己教師あり音声モデルの最近の進歩により、多くの下流タスクで大幅な改善が見られました。
ただし、これらのモデルは主にフレームレベルのトレーニング目標に重点を置いており、意味的理解を必要とする音声言語理解タスクには不十分である可能性があります。
既存の作品は中間ターゲットとして追加の音声テキスト データに依存することが多く、現実世界の設定ではコストがかかります。
この課題に対処するために、私たちは疑似単語 HuBERT (PW-HuBERT) を提案します。これは、疑似単語レベルのターゲットをトレーニング プロセスに統合するフレームワークです。ターゲットは視覚的に根拠のある音声モデルから導出され、特に音声の必要性が排除されます。
-text ペアデータ。
4 つの音声言語理解 (SLU) ベンチマークに関する実験結果は、意味情報の捕捉におけるこのモデルの優位性を示唆しています。

要約(オリジナル)

Recent advances in self-supervised speech models have shown significant improvement in many downstream tasks. However, these models predominantly centered on frame-level training objectives, which can fall short in spoken language understanding tasks that require semantic comprehension. Existing works often rely on additional speech-text data as intermediate targets, which is costly in the real-world setting. To address this challenge, we propose Pseudo-Word HuBERT (PW-HuBERT), a framework that integrates pseudo word-level targets into the training process, where the targets are derived from a visually-ground speech model, notably eliminating the need for speech-text paired data. Our experimental results on four spoken language understanding (SLU) benchmarks suggest the superiority of our model in capturing semantic information.

arxiv情報

著者 Hung-Chieh Fang,Nai-Xuan Ye,Yi-Jen Shih,Puyuan Peng,Hsuan-Fu Wang,Layne Berry,Hung-yi Lee,David Harwath
発行日 2024-02-08 16:55:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク