UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

要約

手がかりのスピーチ(CS)は、ハンドコーディングを通じてリップリーディングを強化し、聴覚障害者の正確な音声認識サポートを提供します。
CS Video-to-Speech Generation(CSV2S)タスクは、聴覚障害者のCS視覚表現(CSビデオ)を理解できる音声信号に変換することを目的としています。
CSビデオ(シングルCSV2Sと呼ばれる)からの直接生成の発生により、CSデータが不十分なため、パフォーマンスが低下します。
現在の研究は、主にビデオコンテンツを言語テキストに変換するCS認識(CSR)に焦点を当てています。
これに基づいて、CSV2Sの簡単な方法の1つは、CSRとテキストへのスピーチシステムを組み合わせることです。
この組み合わせたアーキテクチャは、段階的なクロスモーダルアライメントの中間媒体としてテキストに依存しており、エラーの伝播と音声ダイナミクスの間の時間的な不整列につながる可能性があります。
これらの課題に対処するために、中間テキストに依存せずにCSビデオからスピーチを直接生成する新しいアプローチを提案します。
これに基づいて、CSV2Sの最初の統一されたフレームワークであるUniCueを提案します。そのコアイノベーションは、CSビデオからの音声生成を促進するための微細な視覚的なセマンチックな情報を提供するCSRタスクの統合にあります。
より正確には、(1)視覚的特徴と音声コンテンツの間の正確なマッピングを確保するための新しい細粒のセマンティックアライメントプール。
(2)クロスタスク表現をブリッジする視覚志向のアダプターで、2つの異なるタスク(つまり、CSV2SおよびCSR)間のシームレスな互換性を確保します。
(3)CSビデオの唇と手の動きの間のきめ細かい時空間相関を強化するために、ポーズ認識のビジュアルプロセッサが導入されています。
新しい確立された中国のCSデータセット(14 CUERS1:8の聴覚障害と6回の正常耳)の実験は、単一のCSV2Sと比較して、単一症状が単語エラー率を78.3%削減し、唇の同期を32%改善することを示しています。

要約(オリジナル)

Cued Speech (CS) enhances lipreading through hand coding, providing precise speech perception support for the hearing-impaired. CS Video-to-Speech generation (CSV2S) task aims to convert the CS visual expressions (CS videos) of hearing-impaired individuals into comprehensible speech signals. Direct generation of speech from CS video (called single CSV2S) yields poor performance due to insufficient CS data. Current research mostly focuses on CS Recognition (CSR), which convert video content into linguistic text. Based on this, one straightforward way of CSV2S is to combine CSR with a Text-to-Speech system. This combined architecture relies on text as an intermediate medium for stepwise cross-modal alignment, which may lead to error propagation and temporal misalignment between speech and video dynamics. To address these challenges, we propose a novel approach that directly generates speech from CS videos without relying on intermediate text. Building upon this, we propose UniCUE, the first unified framework for CSV2S, whose core innovation lies in the integration of the CSR task that provides fine-grained visual-semantic information to facilitate speech generation from CS videos. More precisely, (1) a novel fine-grained semantic alignment pool to ensure precise mapping between visual features and speech contents; (2) a VisioPhonetic adapter to bridge cross-task representations, ensuring seamless compatibility between two distinct tasks (i.e., CSV2S and CSR); (3) a pose-aware visual processor is introduced to enhance fine-grained spatiotemporal correlations between lip and hand movements in CS video. Experiments on our new established Chinese CS dataset (14 cuers1: 8 hearing-impaired and 6 normal-hearing) show that our UniCUE significantly reduces Word Error Rate by 78.3% and improves lip-speech synchronization by 32% compared to the single CSV2S.

arxiv情報

著者 Jinting Wang,Shan Yang,Li Liu
発行日 2025-06-04 16:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク