要約
人体の軌跡は、ビデオ内のアクションを識別するための顕著な手がかりです。
このような身体の軌跡は、主に手話の連続するフレーム全体で手と顔によって伝えられます。
ただし、連続手話認識 (CSLR) の現在の方法は通常、フレームを個別に処理するため、フレーム間の軌跡をキャプチャして効果的に標識を識別することができません。
この制限を処理するために、相関ネットワーク (CorrNet) を提案して、フレーム全体で体の軌跡を明示的にキャプチャして活用し、兆候を識別します。
具体的には、現在のフレームと隣接するフレームの間の相関マップを動的に計算して、すべての空間パッチの軌跡を特定する相関モジュールが最初に提案されます。
次に、これらの相関マップ内の体の軌跡を動的に強調する識別モジュールが提示されます。
その結果、生成された特徴は、兆候を識別するために局所的な一時的な動きの概要を得ることができます。
体の軌道に特別な注意を払っているおかげで、CorrNet は 4 つの大規模なデータセット、つまり PHOENIX14、PHOENIX14-T、CSL-Daily、および CSL で新しい最先端の精度を実現しています。
以前の時空間推論方法との包括的な比較により、CorrNet の有効性が検証されます。
ビジュアライゼーションは、隣接するフレーム間で人体の軌跡を強調する CorrNet の効果を示しています。
要約(オリジナル)
Human body trajectories are a salient cue to identify actions in the video. Such body trajectories are mainly conveyed by hands and face across consecutive frames in sign language. However, current methods in continuous sign language recognition (CSLR) usually process frames independently, thus failing to capture cross-frame trajectories to effectively identify a sign. To handle this limitation, we propose correlation network (CorrNet) to explicitly capture and leverage body trajectories across frames to identify signs. In specific, a correlation module is first proposed to dynamically compute correlation maps between the current frame and adjacent frames to identify trajectories of all spatial patches. An identification module is then presented to dynamically emphasize the body trajectories within these correlation maps. As a result, the generated features are able to gain an overview of local temporal movements to identify a sign. Thanks to its special attention on body trajectories, CorrNet achieves new state-of-the-art accuracy on four large-scale datasets, i.e., PHOENIX14, PHOENIX14-T, CSL-Daily, and CSL. A comprehensive comparison with previous spatial-temporal reasoning methods verifies the effectiveness of CorrNet. Visualizations demonstrate the effects of CorrNet on emphasizing human body trajectories across adjacent frames.
arxiv情報
著者 | Lianyu Hu,Liqing Gao,Zekang Liu,Wei Feng |
発行日 | 2023-03-08 14:21:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google