要約
周囲の交通参加者の将来の状態を予測することは、自動運転車にとって重要な機能です。
最近提案された占有フロー フィールド予測は、スケーラブルで効果的な表現を導入して、シーン内の周囲のエージェントの将来の動きを共同で予測します。
ただし、困難な部分は、交通エージェント間の基本的な社会的相互作用と、占有率と流れの関係をモデル化することです。
したがって、このホワイト ペーパーでは、ベクトル化された (エージェントの動き) モダリティとビジュアル (シーン フロー、マップ、および占有) モダリティを融合し、シーンの流れと占有を共同で予測する、新しいマルチモーダル階層トランスフォーマー ネットワークを提案します。
具体的には、感覚データからの視覚的およびベクトル的特徴は、多段階の Transformer モジュールを介してエンコードされ、その後、一時的なピクセル単位の注意を払って後期融合 Transformer モジュールを介してエンコードされます。
重要なことに、フローガイド付きマルチヘッドセルフアテンション (FG-MSA) モジュールは、占有率とフローに関する情報をより適切に集約し、それらの間の数学的関係をモデル化するように設計されています。
提案された方法は、Waymo Open Motion Dataset で包括的に検証され、いくつかの最先端のモデルと比較されます。
結果は、他の方法よりもはるかにコンパクトなアーキテクチャとデータ入力を備えたモデルが、同等のパフォーマンスを達成できることを明らかにしています。
また、ベクトル化されたエージェントのモーション機能と提案された FG-MSA モジュールを組み込むことの有効性を示します。
2022 年の Waymo Occupancy and Flow Prediction Challenge で 2 位を獲得した FG-MSA モジュールなしのアブレーション モデルと比較すると、現在のモデルはフローと占有の分離性が向上し、パフォーマンスがさらに向上しています。
要約(オリジナル)
Forecasting the future states of surrounding traffic participants is a crucial capability for autonomous vehicles. The recently proposed occupancy flow field prediction introduces a scalable and effective representation to jointly predict surrounding agents’ future motions in a scene. However, the challenging part is to model the underlying social interactions among traffic agents and the relations between occupancy and flow. Therefore, this paper proposes a novel Multi-modal Hierarchical Transformer network that fuses the vectorized (agent motion) and visual (scene flow, map, and occupancy) modalities and jointly predicts the flow and occupancy of the scene. Specifically, visual and vector features from sensory data are encoded through a multi-stage Transformer module and then a late-fusion Transformer module with temporal pixel-wise attention. Importantly, a flow-guided multi-head self-attention (FG-MSA) module is designed to better aggregate the information on occupancy and flow and model the mathematical relations between them. The proposed method is comprehensively validated on the Waymo Open Motion Dataset and compared against several state-of-the-art models. The results reveal that our model with much more compact architecture and data inputs than other methods can achieve comparable performance. We also demonstrate the effectiveness of incorporating vectorized agent motion features and the proposed FG-MSA module. Compared to the ablated model without the FG-MSA module, which won 2nd place in the 2022 Waymo Occupancy and Flow Prediction Challenge, the current model shows better separability for flow and occupancy and further performance improvements.
arxiv情報
著者 | Haochen Liu,Zhiyu Huang,Chen Lv |
発行日 | 2022-09-15 09:08:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google