Time-Varying Quasi-Closed-Phase Analysis for Accurate Formant Tracking in Speech Signals

要約

この論文では、時変準閉位相 (TVQCP) 分析を使用して音声信号のフォルマントを正確に推定および追跡するための新しい方法を提案します。
従来のフォルマント追跡方法は通常、2 段階の推定および追跡戦略を採用しています。この戦略では、フォルマント候補の初期セットが短時間分析 (たとえば、10 ~ 50 ミリ秒) を使用して推定され、その後、動的プログラミングまたは動的プログラミングに基づいた追跡段階が続きます。
線形状態空間モデル。
これらのアプローチの主な欠点の 1 つは、追跡段階がどれほど優れていても、最初の段階のフォルマント推定精度を改善できないことです。
提案された TVQCP 方法は、推定段階と追跡段階を 1 つに組み合わせた単一段階のフォルマント追跡を提供します。
TVQCP 分析は、フォルマント推定と追跡を改善するために 3 つのアプローチを組み合わせています。(1) 時間的に重み付けされた準閉位相分析を使用して、励振源からの干渉を低減した声道の閉位相推定を導き出します。(2) 残差を増加させます。
$L_1$ 最適化を使用してスパース性を高めます。(3) 長い時間ウィンドウ (100 ~ 200 ミリ秒など) にわたる時変線形予測分析を使用して、声道モデル、したがってフォルマントの軌道に連続性の制約を課します。
さまざまな合成および自然音声信号を使用したフォルマント トラッキング実験では、提案された TVQCP 手法が、Wavesurfer や Praat (動的プログラミングに基づく)、KARMA アルゴリズム (カルマン フィルタリングに基づく) などの従来の一般的なフォルマント トラッキング ツールよりも優れたパフォーマンスを発揮することが示されています。
、および DeepFormants (教師ありの方法でトレーニングされたディープ ニューラル ネットワークに基づく)。
提案された手法の Matlab スクリプトは、https://github.com/njaygowda/ftrack にあります。

要約(オリジナル)

In this paper, we propose a new method for the accurate estimation and tracking of formants in speech signals using time-varying quasi-closed-phase (TVQCP) analysis. Conventional formant tracking methods typically adopt a two-stage estimate-and-track strategy wherein an initial set of formant candidates are estimated using short-time analysis (e.g., 10–50 ms), followed by a tracking stage based on dynamic programming or a linear state-space model. One of the main disadvantages of these approaches is that the tracking stage, however good it may be, cannot improve upon the formant estimation accuracy of the first stage. The proposed TVQCP method provides a single-stage formant tracking that combines the estimation and tracking stages into one. TVQCP analysis combines three approaches to improve formant estimation and tracking: (1) it uses temporally weighted quasi-closed-phase analysis to derive closed-phase estimates of the vocal tract with reduced interference from the excitation source, (2) it increases the residual sparsity by using the $L_1$ optimization and (3) it uses time-varying linear prediction analysis over long time windows (e.g., 100–200 ms) to impose a continuity constraint on the vocal tract model and hence on the formant trajectories. Formant tracking experiments with a wide variety of synthetic and natural speech signals show that the proposed TVQCP method performs better than conventional and popular formant tracking tools, such as Wavesurfer and Praat (based on dynamic programming), the KARMA algorithm (based on Kalman filtering), and DeepFormants (based on deep neural networks trained in a supervised manner). Matlab scripts for the proposed method can be found at: https://github.com/njaygowda/ftrack

arxiv情報

著者 Dhananjaya Gowda,Sudarsana Reddy Kadiri,Brad Story,Paavo Alku
発行日 2023-08-31 08:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS, eess.SP パーマリンク