JOADAA: joint online action detection and action anticipation

要約

行動の予測には、過去の出来事を将来の出来事に結びつけることによって将来の行動を予測することが含まれます。
ただし、この推論は、過去、現在、未来の 3 つの主要な部分で構成されると考えられている現実の出来事の階層を無視しています。
これら 3 つの主要な部分とその依存関係を考慮すると、パフォーマンスが向上する可能性があると主張します。
一方、オンライン行動検出は、ストリーミング形式で行動を予測するタスクです。
この場合、アクセスできるのは過去と現在の情報のみです。
したがって、オンライン アクション検出 (OAD) では、既存のアプローチではセマンティクスや将来の情報が欠落しており、パフォーマンスが制限されます。
要約すると、これらのタスクの両方について、完全な知識セット (過去、現在、未来) が欠落しているため、アクションの依存関係を推測することが困難になり、パフォーマンスが低下します。
この制限に対処するために、両方のタスクを単一の均一なアーキテクチャに融合することを提案します。
アクションの予測とオンライン アクションの検出を組み合わせることで、私たちのアプローチは、オンライン アクションの検出における将来の情報の欠落した依存関係をカバーできます。
JOADAA と呼ばれるこの方法は、アクションの予測とオンライン アクションの検出を共同で実行する統一モデルを提供します。
提案したモデルを 3 つの困難なデータセットで検証します。THUMOS’14 は、タイム ステップごとに 1 つのアクションがまばらにアノテーションが付けられたデータセットです。CHARADES、および Multi-THUMOS は、より複雑なシナリオを備えた 2 つの高密度にアノテーションが付けられたデータセットです。
JOADAA は、両方のタスクのベンチマークで SOTA の結果を達成しました。

要約(オリジナル)

Action anticipation involves forecasting future actions by connecting past events to future ones. However, this reasoning ignores the real-life hierarchy of events which is considered to be composed of three main parts: past, present, and future. We argue that considering these three main parts and their dependencies could improve performance. On the other hand, online action detection is the task of predicting actions in a streaming manner. In this case, one has access only to the past and present information. Therefore, in online action detection (OAD) the existing approaches miss semantics or future information which limits their performance. To sum up, for both of these tasks, the complete set of knowledge (past-present-future) is missing, which makes it challenging to infer action dependencies, therefore having low performances. To address this limitation, we propose to fuse both tasks into a single uniform architecture. By combining action anticipation and online action detection, our approach can cover the missing dependencies of future information in online action detection. This method referred to as JOADAA, presents a uniform model that jointly performs action anticipation and online action detection. We validate our proposed model on three challenging datasets: THUMOS’14, which is a sparsely annotated dataset with one action per time step, CHARADES, and Multi-THUMOS, two densely annotated datasets with more complex scenarios. JOADAA achieves SOTA results on these benchmarks for both tasks.

arxiv情報

著者 Mohammed Guermal,Francois Bremond,Rui Dai,Abid Ali
発行日 2023-09-12 11:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク