Can Reasons Help Improve Pedestrian Intent Estimation? A Cross-Modal Approach

要約

自律ナビゲーション システムの重要性が高まるにつれ、歩行者などの道路脆弱者 (VRU) の安全を保護する必要性が高まっています。
歩行者の意図を予測することは、そのような困難なタスクの 1 つであり、以前の研究では、視覚的特徴と動作の特徴を融合して、二値の横断/横断禁止の意図を予測していました。
しかし、人間が理解できる理由でそのような予測を回避する努力はこれまでのところ行われていない。
私たちは、歩行者の意図の背後にある直感的な推論を探るという新しい問題設定を導入することで、この問題に対処します。
特に、「WHY」の予測が「WHAT」を理解するのに非常に役立つことを示します。
この目的を達成するために、我々は、歩行者の意図に関するマルチラベルのテキスト説明/理由から構成される、新規の理由を強化した PIE++ データセットを提案します。
また、MINDREAD と呼ばれる新しいマルチタスク学習フレームワークも紹介します。これは、クロスモーダル表現学習フレームワークを活用して、歩行者の意図とその意図の背後にある理由を予測します。
私たちの包括的な実験では、MINDREAD を使用した PIE++ データセットの意図予測タスクの精度と F1 スコアが 5.6% と 7% 大幅に向上したことが示されました。
また、一般的に使用される JAAD データセットでは精度が 4.4% 向上しました。
定量的/定性的指標とユーザー調査を使用した広範な評価により、当社のアプローチの有効性が示されています。

要約(オリジナル)

With the increased importance of autonomous navigation systems has come an increasing need to protect the safety of Vulnerable Road Users (VRUs) such as pedestrians. Predicting pedestrian intent is one such challenging task, where prior work predicts the binary cross/no-cross intention with a fusion of visual and motion features. However, there has been no effort so far to hedge such predictions with human-understandable reasons. We address this issue by introducing a novel problem setting of exploring the intuitive reasoning behind a pedestrian’s intent. In particular, we show that predicting the ‘WHY’ can be very useful in understanding the ‘WHAT’. To this end, we propose a novel, reason-enriched PIE++ dataset consisting of multi-label textual explanations/reasons for pedestrian intent. We also introduce a novel multi-task learning framework called MINDREAD, which leverages a cross-modal representation learning framework for predicting pedestrian intent as well as the reason behind the intent. Our comprehensive experiments show significant improvement of 5.6% and 7% in accuracy and F1-score for the task of intent prediction on the PIE++ dataset using MINDREAD. We also achieved a 4.4% improvement in accuracy on a commonly used JAAD dataset. Extensive evaluation using quantitative/qualitative metrics and user studies shows the effectiveness of our approach.

arxiv情報

著者 Vaishnavi Khindkar,Vineeth Balasubramanian,Chetan Arora,Anbumani Subramanian,C. V. Jawahar
発行日 2024-11-20 13:15:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク