要約
話し言葉検出 (STD) は、多くの場合、フレーム レベルの機能や計算量の多い DTW ベースのテンプレート マッチングへの依存によって妨げられ、実用性が制限されます。
これらの課題に対処するために、音声を個別の話者に依存しない意味論的トークンにエンコードする新しいアプローチを提案します。
これにより、テキストベースの検索アルゴリズムを使用した高速な検索が容易になり、語彙外の用語を効果的に処理できます。
私たちのアプローチは、同じ用語のさまざまな発話にわたって一貫したトークン シーケンスを生成することに重点を置いています。
また、自己教師あり学習フレームワークでトレーニングされた Mamba エンコーダー内の双方向状態空間モデリングを提案し、離散トークンにさらにエンコードされるコンテキスト フレーム レベルの特徴を学習します。
私たちの分析によると、私たちの音声トークンは既存のトークナイザーのものよりも話者不変性が高く、STD タスクにより適していることがわかりました。
LibriSpeech および TIMIT データベースでの経験的評価は、私たちの方法が既存の STD ベースラインを上回り、より効率的であることを示しています。
要約(オリジナル)
Spoken term detection (STD) is often hindered by reliance on frame-level features and the computationally intensive DTW-based template matching, limiting its practicality. To address these challenges, we propose a novel approach that encodes speech into discrete, speaker-agnostic semantic tokens. This facilitates fast retrieval using text-based search algorithms and effectively handles out-of-vocabulary terms. Our approach focuses on generating consistent token sequences across varying utterances of the same term. We also propose a bidirectional state space modeling within the Mamba encoder, trained in a self-supervised learning framework, to learn contextual frame-level features that are further encoded into discrete tokens. Our analysis shows that our speech tokens exhibit greater speaker invariance than those from existing tokenizers, making them more suitable for STD tasks. Empirical evaluation on LibriSpeech and TIMIT databases indicates that our method outperforms existing STD baselines while being more efficient.
arxiv情報
著者 | Anup Singh,Kris Demuynck,Vipul Arora |
発行日 | 2024-11-21 13:05:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google