Cross-Modal Mutual Learning for Cued Speech Recognition

要約

Automatic Cued Speech Recognition (ACSR) は、ビジュアル コミュニケーション用のインテリジェントなヒューマン マシン インターフェイスを提供します。Cued Speech (CS) システムは、唇の動きと手のジェスチャーを利用して、聴覚障害者向けに話し言葉をコーディングします。
以前の ACSR アプローチは、多くの場合、主要な融合パラダイムとして直接機能連結を利用します。
ただし、CS の非同期モダリティ (唇、手の形、手の位置) は、機能の連結に干渉を引き起こす可能性があります。
この課題に対処するために、トランスフォーマー ベースのクロスモーダル相互学習フレームワークを提案して、マルチモーダル インタラクションを促進します。
通常の自己注意と比較して、私たちのモデルは、異なるモダリティのモダリティ固有の情報をモダリティ不変のコードブックを通過させ、各モダリティのトークンの言語表現を照合します。
次に、共有された言語知識を使用して、マルチモーダル シーケンスを再同期します。
さらに、中国語用の新しい大規模マルチスピーカー CS データセットを確立します。
私たちの知る限り、これは標準中国語の ACSR に関する最初の作業です。
さまざまな言語(中国語、フランス語、イギリス英語など)について広範な実験が行われています。
結果は、私たちのモデルが最先端技術よりも大幅に優れた認識性能を発揮することを示しています。

要約(オリジナル)

Automatic Cued Speech Recognition (ACSR) provides an intelligent human-machine interface for visual communications, where the Cued Speech (CS) system utilizes lip movements and hand gestures to code spoken language for hearing-impaired people. Previous ACSR approaches often utilize direct feature concatenation as the main fusion paradigm. However, the asynchronous modalities i.e., lip, hand shape and hand position) in CS may cause interference for feature concatenation. To address this challenge, we propose a transformer based cross-modal mutual learning framework to prompt multi-modal interaction. Compared with the vanilla self-attention, our model forces modality-specific information of different modalities to pass through a modality-invariant codebook, collating linguistic representations for tokens of each modality. Then the shared linguistic knowledge is used to re-synchronize multi-modal sequences. Moreover, we establish a novel large-scale multi-speaker CS dataset for Mandarin Chinese. To our knowledge, this is the first work on ACSR for Mandarin Chinese. Extensive experiments are conducted for different languages i.e., Chinese, French, and British English). Results demonstrate that our model exhibits superior recognition performance to the state-of-the-art by a large margin.

arxiv情報

著者 Lei Liu,Li Liu
発行日 2023-02-27 04:30:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS パーマリンク