Taylor Videos for Action Recognition

要約

映像からモーションを効果的に抽出することは、行動認識にとって重要かつ長年の課題である。この問題は、(i)動作が明示的な形式を持たない、(ii)変位、速度、加速度など様々な概念を持つ、(iii)不安定な画素によるノイズを含むことが多い、などの理由から非常に困難である。これらの課題に対処するため、我々はTaylor videoを提案する。Taylor videoは、Taylor frameと名付けられた各フレームにおいて、支配的な動き(例えば、手を振る動き)をハイライトする新しいビデオフォーマットである。Taylorビデオは、Taylor系列にちなんで命名された。Taylor系列は、ある点における関数を重要な項を用いて近似する。動画のシナリオでは、動画の時間ブロックから動きを抽出することを目的とした暗黙の動き抽出関数を定義する。このブロックにおいて、フレーム、差分フレーム、高次差分フレームを用いて、テイラー展開を行い、開始フレームでこの関数を近似する。テイラー系列における高次の項の総和は、静的なオブジェクト、小さく不安定なモーションが除去された、支配的なモーションパターンを与えることを示す。実験的に、テイラー動画は2次元CNN、3次元CNN、変換器を含む一般的なアーキテクチャへの効果的な入力であることを示す。個別に使用した場合、テイラー動画はRGB動画やオプティカルフローと比較して競合するアクション認識精度をもたらす。RGBビデオやオプティカルフロービデオと融合すると、更なる精度向上が達成される。

要約(オリジナル)

Effectively extracting motions from video is a critical and long-standing problem for action recognition. This problem is very challenging because motions (i) do not have an explicit form, (ii) have various concepts such as displacement, velocity, and acceleration, and (iii) often contain noise caused by unstable pixels. Addressing these challenges, we propose the Taylor video, a new video format that highlights the dominate motions (e.g., a waving hand) in each of its frames named the Taylor frame. Taylor video is named after Taylor series, which approximates a function at a given point using important terms. In the scenario of videos, we define an implicit motion-extraction function which aims to extract motions from video temporal block. In this block, using the frames, the difference frames, and higher-order difference frames, we perform Taylor expansion to approximate this function at the starting frame. We show the summation of the higher-order terms in the Taylor series gives us dominant motion patterns, where static objects, small and unstable motions are removed. Experimentally we show that Taylor videos are effective inputs to popular architectures including 2D CNNs, 3D CNNs, and transformers. When used individually, Taylor videos yield competitive action recognition accuracy compared to RGB videos and optical flow. When fused with RGB or optical flow videos, further accuracy improvement is achieved.

arxiv情報

著者 Lei Wang,Xiuyuan Yuan,Tom Gedeon,Liang Zheng
発行日 2024-02-05 14:00:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク