HuBERTopic: Enhancing Semantic Representation of HuBERT through Self-supervision Utilizing Topic Model

要約

最近、自己教師あり表現学習 (SSRL) 手法の有用性がさまざまな下流タスクで確認されています。
HuBERT や WavLM に代表されるこれらのモデルの多くは、スペクトル特徴またはモデル自体の表現特徴から生成された擬似ラベルを使用します。
これまでの研究から、擬似ラベルには意味情報が含まれていることが知られています。
ただし、HuBERT の学習基準であるマスクされた予測タスクは、ローカルなコンテキスト情報に焦点を当てており、話者やスピーチのテーマなどのグローバルな意味情報を効果的に利用できない可能性があります。
この論文では、HuBERT の意味表現を強化するための新しいアプローチを提案します。
トピック モデルを擬似ラベルに適用して、発話ごとにトピック ラベルを生成します。
トピック ラベルを教師として使用することにより、補助的なトピック分類タスクが HuBERT に追加されます。
これにより、追加のグローバル セマンティック情報を教師なしの方法で組み込むことができます。
実験結果は、自動音声認識と 8 つの SUPERB タスクのうち 5 つを含むほとんどのタスクで、私たちの方法がベースラインと同等以上のパフォーマンスを達成することを示しています。
さらに、トピックラベルには、性別、話者、テーマなど、発話に関するさまざまな情報が含まれていることがわかります。
これは、多面的な意味上のニュアンスを捉える際の私たちのアプローチの有効性を強調しています。

要約(オリジナル)

Recently, the usefulness of self-supervised representation learning (SSRL) methods has been confirmed in various downstream tasks. Many of these models, as exemplified by HuBERT and WavLM, use pseudo-labels generated from spectral features or the model’s own representation features. From previous studies, it is known that the pseudo-labels contain semantic information. However, the masked prediction task, the learning criterion of HuBERT, focuses on local contextual information and may not make effective use of global semantic information such as speaker, theme of speech, and so on. In this paper, we propose a new approach to enrich the semantic representation of HuBERT. We apply topic model to pseudo-labels to generate a topic label for each utterance. An auxiliary topic classification task is added to HuBERT by using topic labels as teachers. This allows additional global semantic information to be incorporated in an unsupervised manner. Experimental results demonstrate that our method achieves comparable or better performance than the baseline in most tasks, including automatic speech recognition and five out of the eight SUPERB tasks. Moreover, we find that topic labels include various information about utterance, such as gender, speaker, and its theme. This highlights the effectiveness of our approach in capturing multifaceted semantic nuances.

arxiv情報

著者 Takashi Maekaku,Jiatong Shi,Xuankai Chang,Yuya Fujita,Shinji Watanabe
発行日 2023-10-06 02:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD パーマリンク