Soft Dynamic Time Warping for Multi-Pitch Estimation and Beyond

要約

タイトル:多重ピッチ推定におけるSoft Dynamic Time Warping

要約:
– 音楽情報検索(MIR)の多くのタスクは、正確な時間的対応が不明な弱く対応付けられたデータを扱う。
– Connectionist Temporal Classification(CTC)損失は、弱く対応付けられたトレーニングデータに基づいて特徴表現を学習するための標準的な技術であるが、離散値のターゲットシーケンスに限定され、マルチラベルの問題に拡張するのが困難であることがある。
– この論文では、クラシカルDTWの微分可能なバリアントであるSoft Dynamic Time Warping(SoftDTW)を、CTCの代替手段として使用する方法を示す。
– 多重ピッチ推定を例として挙げ、SoftDTWがCTCの最新のマルチラベル拡張と同等の結果を生み出すことを示す。
– アルゴリズムの定式化においてもよりエレガントであるだけでなく、SoftDTWは実数値のターゲットシーケンスに自然に拡張できる。

要約(オリジナル)

Many tasks in music information retrieval (MIR) involve weakly aligned data, where exact temporal correspondences are unknown. The connectionist temporal classification (CTC) loss is a standard technique to learn feature representations based on weakly aligned training data. However, CTC is limited to discrete-valued target sequences and can be difficult to extend to multi-label problems. In this article, we show how soft dynamic time warping (SoftDTW), a differentiable variant of classical DTW, can be used as an alternative to CTC. Using multi-pitch estimation as an example scenario, we show that SoftDTW yields results on par with a state-of-the-art multi-label extension of CTC. In addition to being more elegant in terms of its algorithmic formulation, SoftDTW naturally extends to real-valued target sequences.

arxiv情報

著者 Michael Krause,Christof Weiß,Meinard Müller
発行日 2023-04-11 07:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク