RALACs: Action Recognition in Autonomous Vehicles using Interaction Encoding and Optical Flow

要約

行動認識を自動運転車 (AV) 設定に適用すると、環境モデルの状況認識を強化できます。
これは、AV における従来の幾何学的記述とヒューリスティックが不十分なシナリオで特に一般的です。
しかし、動作認識は伝統的に人間を対象として研究されており、ノイズが多く、クリップされておらず、改ざんされていない生の RGB データに対する適応性が限られているため、他の分野での応用は限られていました。
AV への動作認識の進歩と導入を推進するために、この研究では、RALAC と呼ばれる新しい 2 段階の動作認識システムを提案しています。
RALAC は、道路シーンの動作認識の問題を定式化し、それと人間の動作認識の確立された分野との間のギャップを橋渡しします。
この研究は、アテンション層がエージェント間の関係をエンコードするのにどのように役立つかを示し、そのようなスキームがどのようにクラスに依存しないかを強調しています。
さらに、路上でのエージェントの動的な性質に対処するために、RALAC は、下流のアクション分類のためのエージェント トラックに関心領域 (ROI) アライメントを適応させる新しいアプローチを構築します。
最後に、私たちのスキームは、アクティブなエージェントの検出の問題も考慮しており、オプティカル フロー マップを融合する新しいアプリケーションを利用して、道路シーンで関連するエージェントを識別します。
私たちが提案したスキームが ICCV2021 Road Challenge データセットのベースラインを上回るパフォーマンスを発揮できることを示し、それを実際の車両プラットフォームに展開することで、意思決定における行動認識の有用性についての予備的な洞察を提供します。

要約(オリジナル)

When applied to autonomous vehicle (AV) settings, action recognition can enhance an environment model’s situational awareness. This is especially prevalent in scenarios where traditional geometric descriptions and heuristics in AVs are insufficient. However, action recognition has traditionally been studied for humans, and its limited adaptability to noisy, un-clipped, un-pampered, raw RGB data has limited its application in other fields. To push for the advancement and adoption of action recognition into AVs, this work proposes a novel two-stage action recognition system, termed RALACs. RALACs formulates the problem of action recognition for road scenes, and bridges the gap between it and the established field of human action recognition. This work shows how attention layers can be useful for encoding the relations across agents, and stresses how such a scheme can be class-agnostic. Furthermore, to address the dynamic nature of agents on the road, RALACs constructs a novel approach to adapting Region of Interest (ROI) Alignment to agent tracks for downstream action classification. Finally, our scheme also considers the problem of active agent detection, and utilizes a novel application of fusing optical flow maps to discern relevant agents in a road scene. We show that our proposed scheme can outperform the baseline on the ICCV2021 Road Challenge dataset and by deploying it on a real vehicle platform, we provide preliminary insight to the usefulness of action recognition in decision making.

arxiv情報

著者 Eddy Zhou,Alex Zhuang,Alikasim Budhwani,Owen Leather,Rowan Dempster,Quanquan Li,Mohammad Al-Sharman,Derek Rayside,William Melek
発行日 2024-01-14 16:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク