要約
アクションの逐次実行と、さまざまな抽象化レベルで構成されるその階層構造は、アクション認識のタスクにおいてまだ解明されていない機能を提供します。
この研究では、アクションの階層的構成を利用し、連続的なコンテキストを反映する位置や以前のアクションなどの文脈化されたテキスト情報を組み込むことによって、アクション認識を向上させる新しいアプローチを紹介します。
この目標を達成するために、視覚的特徴とテキスト的特徴の両方を利用するアクション認識に合わせた新しいトランスフォーマー アーキテクチャを導入します。
視覚的な特徴は RGB およびオプティカル フロー データから取得され、テキストの埋め込みはコンテキスト情報を表します。
さらに、粗い動作認識と細かい動作認識の両方のモデルを同時にトレーニングするための共同損失関数を定義し、それによって動作の階層的な性質を利用します。
私たちの方法の有効性を実証するために、Toyota Smarthome Untrimmed (TSU) データセットを拡張してアクション階層を導入し、Hierarchical TSU データセットを導入します。
また、文脈データと階層データを統合するためのさまざまな方法が動作認識パフォーマンスに与える影響を評価するためのアブレーション研究も実施します。
結果は、同じハイパーパラメータを使用してトレーニングした場合、提案されたアプローチが事前トレーニングされた SOTA メソッドよりも優れたパフォーマンスを発揮することを示しています。
さらに、グラウンドトゥルースのコンテキスト情報を使用した場合、同等の細粒度 RGB バージョンと比較してトップ 1 精度が 17.12% 向上し、コンテキスト情報が実際の予測から取得された場合は 5.33% 向上したことも示しています。
要約(オリジナル)
The sequential execution of actions and their hierarchical structure consisting of different levels of abstraction, provide features that remain unexplored in the task of action recognition. In this study, we present a novel approach to improve action recognition by exploiting the hierarchical organization of actions and by incorporating contextualized textual information, including location and prior actions to reflect the sequential context. To achieve this goal, we introduce a novel transformer architecture tailored for action recognition that utilizes both visual and textual features. Visual features are obtained from RGB and optical flow data, while text embeddings represent contextual information. Furthermore, we define a joint loss function to simultaneously train the model for both coarse and fine-grained action recognition, thereby exploiting the hierarchical nature of actions. To demonstrate the effectiveness of our method, we extend the Toyota Smarthome Untrimmed (TSU) dataset to introduce action hierarchies, introducing the Hierarchical TSU dataset. We also conduct an ablation study to assess the impact of different methods for integrating contextual and hierarchical data on action recognition performance. Results show that the proposed approach outperforms pre-trained SOTA methods when trained with the same hyperparameters. Moreover, they also show a 17.12% improvement in top-1 accuracy over the equivalent fine-grained RGB version when using ground-truth contextual information, and a 5.33% improvement when contextual information is obtained from actual predictions.
arxiv情報
著者 | Manuel Benavent-Lledo,David Mulero-Pérez,David Ortiz-Perez,Jose Garcia-Rodriguez,Antonis Argyros |
発行日 | 2024-10-28 17:59:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google