Taylor Videos for Action Recognition

要約

ビデオからモーションを効果的に抽出することは、アクション認識にとって重要かつ長年の課題です。
モーションには (i) 明確な形式がなく、(ii) 変位、速度、加速度などのさまざまな概念があり、(iii) 不安定なピクセルによって引き起こされるノイズが含まれることが多いため、この問題は非常に困難です。
これらの課題に対処するために、我々はテイラービデオを提案します。これは、テイラーフレームと名付けられた各フレーム内の主要な動き(例えば、手を振る)を強調表示する新しいビデオフォーマットです。
テイラー ビデオは、重要な項を使用して特定の点での関数を近似するテイラー級数にちなんで名付けられました。
ビデオのシナリオでは、ビデオ時間ブロックから動きを抽出することを目的とした暗黙的な動き抽出関数を定義します。
このブロックでは、フレーム、差分フレーム、および高次の差分フレームを使用して、テイラー展開を実行して、開始フレームでこの関数を近似します。
テイラー級数の高次項の合計により、静的な物体や小さく不安定な動きが除去された支配的な動きパターンが得られることを示します。
私たちは実験的に、Taylor ビデオが 2D CNN、3D CNN、トランスフォーマーなどの一般的なアーキテクチャへの効果的な入力であることを示しています。
テイラー ビデオを個別に使用すると、RGB ビデオやオプティカル フローと比較して、優れたアクション認識精度が得られます。
RGBやオプティカルフロー映像と融合することで、さらなる精度向上を実現します。
さらに、テイラー ビデオ計算を人間のスケルトン シーケンスに適用し、その結果、スケルトン ベースの動作認識にオリジナルのスケルトンを使用した場合よりも優れたパフォーマンスを発揮するテイラー スケルトン シーケンスが得られます。

要約(オリジナル)

Effectively extracting motions from video is a critical and long-standing problem for action recognition. This problem is very challenging because motions (i) do not have an explicit form, (ii) have various concepts such as displacement, velocity, and acceleration, and (iii) often contain noise caused by unstable pixels. Addressing these challenges, we propose the Taylor video, a new video format that highlights the dominate motions (e.g., a waving hand) in each of its frames named the Taylor frame. Taylor video is named after Taylor series, which approximates a function at a given point using important terms. In the scenario of videos, we define an implicit motion-extraction function which aims to extract motions from video temporal block. In this block, using the frames, the difference frames, and higher-order difference frames, we perform Taylor expansion to approximate this function at the starting frame. We show the summation of the higher-order terms in the Taylor series gives us dominant motion patterns, where static objects, small and unstable motions are removed. Experimentally we show that Taylor videos are effective inputs to popular architectures including 2D CNNs, 3D CNNs, and transformers. When used individually, Taylor videos yield competitive action recognition accuracy compared to RGB videos and optical flow. When fused with RGB or optical flow videos, further accuracy improvement is achieved. Additionally, we apply Taylor video computation to human skeleton sequences, resulting in Taylor skeleton sequences that outperform the use of original skeletons for skeleton-based action recognition.

arxiv情報

著者 Lei Wang,Xiuyuan Yuan,Tom Gedeon,Liang Zheng
発行日 2024-05-10 14:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク