Synthesizing audio from tongue motion during speech using tagged MRI via transformer

要約

タグ付けされた MRI から測定された舌の内部組織点の動きと口腔咽頭筋の変形との関係を調査することは、発話運動制御理論を前進させ、発話関連障害の新しい治療方法を開発するのに役立ちます。
ただし、これら 2 つの情報源の間の関係を解明することは、時空間モーション フィールド (つまり、4D モーション フィールド) と 1 次元のオーディオ波形の間のデータ構造の不一致が原因の 1 つとして、困難です。
この作業では、オーディオ データの代理として 2D スペクトログラムを介して 4D モーション フィールドに固有の予測情報を探索するための効率的なエンコーダー デコーダー変換ネットワークを提示します。
具体的には、エンコーダーは 3D 畳み込み空間モデリングとトランスフォーマーベースの時間モデリングに基づいています。
抽出された特徴は、非対称 2D 畳み込みデコーダーによって処理され、4D モーション フィールドに対応するスペクトログラムが生成されます。
さらに、生成された敵対的トレーニング アプローチをフレームワークに組み込み、生成されたスペクトログラムの合成品質をさらに向上させます。
63 のモーション フィールド シーケンスと音声波形のペアを実験し、フレームワークが一連のモーション フィールドから明確なオーディオ波形を生成できることを示します。
したがって、私たちのフレームワークは、これら 2 つのモダリティ間の関係についての理解を深め、言語障害の治療法の開発に役立つ可能性を秘めています。

要約(オリジナル)

Investigating the relationship between internal tissue point motion of the tongue and oropharyngeal muscle deformation measured from tagged MRI and intelligible speech can aid in advancing speech motor control theories and developing novel treatment methods for speech related-disorders. However, elucidating the relationship between these two sources of information is challenging, due in part to the disparity in data structure between spatiotemporal motion fields (i.e., 4D motion fields) and one-dimensional audio waveforms. In this work, we present an efficient encoder-decoder translation network for exploring the predictive information inherent in 4D motion fields via 2D spectrograms as a surrogate of the audio data. Specifically, our encoder is based on 3D convolutional spatial modeling and transformer-based temporal modeling. The extracted features are processed by an asymmetric 2D convolution decoder to generate spectrograms that correspond to 4D motion fields. Furthermore, we incorporate a generative adversarial training approach into our framework to further improve synthesis quality on our generated spectrograms. We experiment on 63 paired motion field sequences and speech waveforms, demonstrating that our framework enables the generation of clear audio waveforms from a sequence of motion fields. Thus, our framework has the potential to improve our understanding of the relationship between these two modalities and inform the development of treatments for speech disorders.

arxiv情報

著者 Xiaofeng Liu,Fangxu Xing,Jerry L. Prince,Maureen Stone,Georges El Fakhri,Jonghye Woo
発行日 2023-02-14 17:27:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS, eess.IV, eess.SP パーマリンク