Back to Supervision: Boosting Word Boundary Detection through Frame Classification

要約

単語レベルと音素レベルの両方で音声をセグメント化することは、さまざまな音声処理タスクにとって重要です。
これは、発話から意味のある単位を抽出するのに非常に役立ち、したがって個別の要素の生成が可能になります。
この研究では、ラベル拡張技術と出力フレーム選択戦略も使用して、教師ありの方法で単語境界検出を実行するモデルに依存しないフレームワークを提案します。
私たちは、事前トレーニングされたソリューション (Wav2Vec 2.0 および HuBERT) や畳み込みおよび畳み込みリカレント ネットワークを含む最先端のエンコーダー モデルを使用して、Buckeye データセットでトレーニングおよびテストを行い、TIMIT データセットでのみテストしました。
HuBERT エンコーダーを使用した私たちの手法は、同じデータセット上で教師あり設定または自己教師あり設定でトレーニングされたかに関係なく、他の最先端のアーキテクチャのパフォーマンスを上回ります。
具体的には、Buckeye データセットでは 0.8427、TIMIT データセットでは 0.7436 の F 値を達成し、それぞれ 0.8489 と 0.7807 の R 値を達成しました。
これらの結果は、両方のデータセットの新しい最先端技術を確立します。
私たちのアプローチは、当面のタスクを超えて、音声トークン化における将来の研究のための堅牢で効率的な前処理方法を提供します。

要約(オリジナル)

Speech segmentation at both word and phoneme levels is crucial for various speech processing tasks. It significantly aids in extracting meaningful units from an utterance, thus enabling the generation of discrete elements. In this work we propose a model-agnostic framework to perform word boundary detection in a supervised manner also employing a labels augmentation technique and an output-frame selection strategy. We trained and tested on the Buckeye dataset and only tested on TIMIT one, using state-of-the-art encoder models, including pre-trained solutions (Wav2Vec 2.0 and HuBERT), as well as convolutional and convolutional recurrent networks. Our method, with the HuBERT encoder, surpasses the performance of other state-of-the-art architectures, whether trained in supervised or self-supervised settings on the same datasets. Specifically, we achieved F-values of 0.8427 on the Buckeye dataset and 0.7436 on the TIMIT dataset, along with R-values of 0.8489 and 0.7807, respectively. These results establish a new state-of-the-art for both datasets. Beyond the immediate task, our approach offers a robust and efficient preprocessing method for future research in audio tokenization.

arxiv情報

著者 Simone Carnemolla,Salvatore Calcagno,Simone Palazzo,Daniela Giordano
発行日 2024-11-15 18:43:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク