Representation Learning With Hidden Unit Clustering For Low Resource Speech Applications

要約

テキストリソースを使用しない音声の表現学習は、多くの低リソース音声アプリケーションにとって非常に興味深い分野です。
この論文では、隠れユニット クラスタリング (HUC) フレームワークを使用して、生のオーディオから自己教師あり表現学習を行うアプローチについて説明します。
モデルへの入力は、ウィンドウ処理され、1 次元畳み込み層で処理されるオーディオ サンプルで構成されます。
畳み込みニューラル ネットワーク (CNN) モジュールから学習された「時間-周波数」表現は、ウィンドウ化されたセグメントごとにコンテキスト ベクトル表現を生成する長期短期記憶 (LSTM) レイヤーでさらに処理されます。
HUC フレームワークは、表現を少数の音素のような単位に分類することを可能にし、意味的に豊富な音声表現を学習するためのモデルをトレーニングするために使用されます。
ターゲットは各オーディオ セグメントの音素のような擬似ラベルで構成され、これらは反復 K 平均法アルゴリズムで生成されます。
学習された表現の話者不変性を改善する手法を検討し、i) ZeroSpeech 2021 チャレンジの一部として説明されているサブタスクでの完全に教師なし音声アプリケーション、および ii) 半教師あり自動音声の 2 つの設定で提案されたアプローチの有効性を示します。
TIMIT データセットおよび GramVaani チャレンジ ヒンディー語データセット上の音声認識 (ASR) アプリケーション。
これらの実験では、さまざまな ZeroSpeech タスクに対して最先端の結果が得られました。
さらに、ASR 実験では、HUC 表現が、Wav2vec、HuBERT、Best-RQ に基づいた他の確立されたベンチマークよりも大幅に向上していることが示されています。

要約(オリジナル)

The representation learning of speech, without textual resources, is an area of significant interest for many low resource speech applications. In this paper, we describe an approach to self-supervised representation learning from raw audio using a hidden unit clustering (HUC) framework. The input to the model consists of audio samples that are windowed and processed with 1-D convolutional layers. The learned ‘time-frequency’ representations from the convolutional neural network (CNN) module are further processed with long short term memory (LSTM) layers which generate a contextual vector representation for every windowed segment. The HUC framework, allowing the categorization of the representations into a small number of phoneme-like units, is used to train the model for learning semantically rich speech representations. The targets consist of phoneme-like pseudo labels for each audio segment and these are generated with an iterative k-means algorithm. We explore techniques that improve the speaker invariance of the learned representations and illustrate the effectiveness of the proposed approach on two settings, i) completely unsupervised speech applications on the sub-tasks described as part of the ZeroSpeech 2021 challenge and ii) semi-supervised automatic speech recognition (ASR) applications on the TIMIT dataset and on the GramVaani challenge Hindi dataset. In these experiments, we achieve state-of-art results for various ZeroSpeech tasks. Further, on the ASR experiments, the HUC representations are shown to improve significantly over other established benchmarks based on Wav2vec, HuBERT and Best-RQ.

arxiv情報

著者 Varun Krishna,Tarun Sai,Sriram Ganapathy
発行日 2023-07-14 13:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.AS パーマリンク