要約
リップリーディングは、スピーカーの唇の動きの視覚情報を利用して、単語や文章を認識することです。
既存のイベントベースのリップリーディングソリューションは、さまざまなフレームレートブランチを統合して、さまざまな粒度の時空間的特徴を学習します。
ただし、イベントをイベントフレームに集約すると、必然的にフレーム内の細粒の時間情報が失われます。
この欠点を改善するために、マルチビューの時間的粒状整列凝集(MTGA)と呼ばれる新しいフレームワークを提案します。
具体的には、最初に、最も重要なローカルボクセルがグラフリストに一時的に接続されている、時間セグメント化されたボクセルグラフリスト、すなわち、新しいイベント表現方法、つまり時間セグメント化されたボクセルグラフリストを提示します。
次に、時間的粒度のアラインメントに基づいて時空間融合モジュールを設計します。ここでは、イベントフレームから抽出されたグローバルな空間機能と、ボクセルグラフリストに含まれるローカル相対空間的および時間的特徴が効果的に整列し、統合されます。
最後に、局所的な絶対空間的およびグローバルな時間情報をキャプチャできる位置エンコードを組み込んだ時間的集約モジュールを設計します。
実験は、私たちの方法がイベントベースとビデオベースのリップリーディングの両方の対応物よりも優れていることを示しています。
要約(オリジナル)
Lip-reading is to utilize the visual information of the speaker’s lip movements to recognize words and sentences. Existing event-based lip-reading solutions integrate different frame rate branches to learn spatio-temporal features of varying granularities. However, aggregating events into event frames inevitably leads to the loss of fine-grained temporal information within frames. To remedy this drawback, we propose a novel framework termed Multi-view Temporal Granularity aligned Aggregation (MTGA). Specifically, we first present a novel event representation method, namely time-segmented voxel graph list, where the most significant local voxels are temporally connected into a graph list. Then we design a spatio-temporal fusion module based on temporal granularity alignment, where the global spatial features extracted from event frames, together with the local relative spatial and temporal features contained in voxel graph list are effectively aligned and integrated. Finally, we design a temporal aggregation module that incorporates positional encoding, which enables the capture of local absolute spatial and global temporal information. Experiments demonstrate that our method outperforms both the event-based and video-based lip-reading counterparts.
arxiv情報
著者 | Wenhao Zhang,Jun Wang,Yong Luo,Lei Yu,Wei Yu,Zheng He,Jialie Shen |
発行日 | 2025-01-31 15:51:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google