About Time: Advances, Challenges, and Outlooks of Action Understanding

要約

私たちは、ビデオアクションの理解における目覚ましい進歩を目の当たりにしてきました。
データセットのサイズ、変動性、および計算の可用性の増加により、パフォーマンスの飛躍的な向上とタスクの多様化が可能になりました。
現在のシステムは、ビデオ シーンの大まかな説明と詳細な説明を提供し、クエリに対応するセグメントを抽出し、ビデオの未観察部分を合成し、コンテキストを予測することができます。
この調査では、さまざまなタスクにわたる単一およびマルチモーダルのアクション理解の進歩を包括的にレビューします。
私たちは一般的な課題に焦点を当て、広く採用されているデータセットを概観し、最近の進歩に重点を置いて独創的な研究を調査します。
我々は大きく 3 つの時間的範囲を区別します: (1) 完全に観察された行動の認識タスク、(2) 進行中の部分的に観察された行動の予測タスク、(3) その後の観察されていない行動の予測タスク。
この分割により、特定のアクション モデリングとビデオ表現の課題を特定できるようになります。
最後に、現在の欠点に対処するための将来の方向性を概説します。

要約(オリジナル)

We have witnessed impressive advances in video action understanding. Increased dataset sizes, variability, and computation availability have enabled leaps in performance and task diversification. Current systems can provide coarse- and fine-grained descriptions of video scenes, extract segments corresponding to queries, synthesize unobserved parts of videos, and predict context. This survey comprehensively reviews advances in uni- and multi-modal action understanding across a range of tasks. We focus on prevalent challenges, overview widely adopted datasets, and survey seminal works with an emphasis on recent advances. We broadly distinguish between three temporal scopes: (1) recognition tasks of actions observed in full, (2) prediction tasks for ongoing partially observed actions, and (3) forecasting tasks for subsequent unobserved action. This division allows us to identify specific action modeling and video representation challenges. Finally, we outline future directions to address current shortcomings.

arxiv情報

著者 Alexandros Stergiou,Ronald Poppe
発行日 2024-11-22 18:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク