Memory-and-Anticipation Transformer for Online Action Understanding

要約

既存の予測システムのほとんどは、さまざまな記憶メカニズムを使用して人間の予測能力を模倣しようとする記憶ベースの方法であり、記憶依存性の時間モデリングが進歩しています。
それにもかかわらず、このパラダイムの明らかな弱点は、限定された歴史的依存性しかモデル化できず、過去を超えることができないことです。
この論文では、出来事の進化の時間依存性を再考し、過去、現在、未来を含む時間構造全体をモデル化するための新しい記憶-予測ベースのパラダイムを提案します。
この考えに基づいて、オンライン アクションの検出および予測タスクに対処するための、記憶予測ベースのアプローチである記憶予測トランスフォーマー (MAT) を紹介します。
また、MAT本来の優位性により、オンラインでの行動検知・予測業務を一元的に処理することが可能です。
提案された MAT モデルは、オンライン アクションの検出および予測タスクに関して、TVSeries、THUMOS’14、HDD、EPIC-Kitchens-100 の 4 つの困難なベンチマークでテストされ、既存のすべての方法を大幅に上回りました。
コードは https://github.com/Echo0125/Memory-and-Anticipation-Transformer で入手できます。

要約(オリジナル)

Most existing forecasting systems are memory-based methods, which attempt to mimic human forecasting ability by employing various memory mechanisms and have progressed in temporal modeling for memory dependency. Nevertheless, an obvious weakness of this paradigm is that it can only model limited historical dependence and can not transcend the past. In this paper, we rethink the temporal dependence of event evolution and propose a novel memory-anticipation-based paradigm to model an entire temporal structure, including the past, present, and future. Based on this idea, we present Memory-and-Anticipation Transformer (MAT), a memory-anticipation-based approach, to address the online action detection and anticipation tasks. In addition, owing to the inherent superiority of MAT, it can process online action detection and anticipation tasks in a unified manner. The proposed MAT model is tested on four challenging benchmarks TVSeries, THUMOS’14, HDD, and EPIC-Kitchens-100, for online action detection and anticipation tasks, and it significantly outperforms all existing methods. Code is available at https://github.com/Echo0125/Memory-and-Anticipation-Transformer.

arxiv情報

著者 Jiahao Wang,Guo Chen,Yifei Huang,Limin Wang,Tong Lu
発行日 2023-08-15 17:34:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク