要約
自動読唇術 (ALR) は、ビデオにキャプチャされた話者の無言の唇の動きから、話された内容を自動的に文字に起こすことを目的としています。
現在主流の読唇アプローチでは、単一のビジュアル エンコーダのみを使用して、単一スケールの入力ビデオをモデル化しています。
この論文では、マルチスケールのビデオデータとマルチエンコーダを組み込むことで読唇力を強化することを提案します。
具体的には、まず、話者の顔のサイズに基づいた新しいマルチスケールの唇の動き抽出アルゴリズムと、さまざまなスケールで唇の特徴を抽出するための拡張 ResNet3D ビジュアル フロントエンド (VFE) を提案します。
マルチエンコーダには、主流のTransformerやConformerに加え、最近提案されているBranchformerやE-Branchformerもビジュアルエンコーダとして搭載しています。
実験では、さまざまなビデオ データ スケールとエンコーダが ALR システムのパフォーマンスに及ぼす影響を調査し、認識出力投票エラー削減 (ROVER) を使用してすべての ALR システムによって転写されたテキストを融合します。
最後に、私たちが提案したアプローチは、評価セットの公式ベースラインと比較して文字エラー率 (CER) が 21.52% 減少し、ICME 2024 ChatCLR Challenge Task 2 で 2 位になりました。
要約(オリジナル)
Automatic lip-reading (ALR) aims to automatically transcribe spoken content from a speaker’s silent lip motion captured in video. Current mainstream lip-reading approaches only use a single visual encoder to model input videos of a single scale. In this paper, we propose to enhance lip-reading by incorporating multi-scale video data and multi-encoder. Specifically, we first propose a novel multi-scale lip motion extraction algorithm based on the size of the speaker’s face and an Enhanced ResNet3D visual front-end (VFE) to extract lip features at different scales. For the multi-encoder, in addition to the mainstream Transformer and Conformer, we also incorporate the recently proposed Branchformer and E-Branchformer as visual encoders. In the experiments, we explore the influence of different video data scales and encoders on ALR system performance and fuse the texts transcribed by all ALR systems using recognizer output voting error reduction (ROVER). Finally, our proposed approach placed second in the ICME 2024 ChatCLR Challenge Task 2, with a 21.52% reduction in character error rate (CER) compared to the official baseline on the evaluation set.
arxiv情報
著者 | He Wang,Pengcheng Guo,Xucheng Wan,Huan Zhou,Lei Xie |
発行日 | 2024-04-30 15:51:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google