Narrowing the Coordinate-frame Gap in Behavior Prediction Models: Distillation for Efficient and Accurate Scene-centric Motion Forecasting

要約

近年、行動予測モデルが普及している。特に、実世界のロボット工学の応用として人気の高い自律走行では、移動するエージェントの可能な未来に対する分布を表現することが、安全で快適な動作計画のために不可欠である。これらのモデルでは、入力と出力を表現する座標フレームの選択が重要なトレードオフの関係にあり、大きく2つのカテゴリに分類される。エージェント中心モデルは、入力を変換し、エージェント中心の座標で推論を行う。これらのモデルは、シーン要素間の移動と回転に対して本質的に不変であり、パブリックリーダーボードで最高のパフォーマンスを発揮しますが、エージェントとシーン要素の数に対して二次関数的にスケールします。シーンセントリックモデルは、すべてのエージェントを処理するために、固定座標系を使用します。これは、すべてのエージェント間で表現を共有し、エージェント数に対して線形にスケールする効率的な償却推論計算を提供するという利点を与える。しかし、これらのモデルはシーン要素間の平行移動と回転に対する不変性を学習する必要があり、一般にエージェント中心モデルの性能を下回っている。本研究では、確率的な運動予測モデル間の知識蒸留技術を開発し、この技術を応用してエージェント中心モデルとシーン中心モデルの性能差を縮める。これにより、シーンセントリックモデルの性能は、公開されているArgoverseベンチマークで13.2%、Waymo Open Datasetで7.8%、大規模In-Houseデータセットで最大9.4%改善されました。これらの改善されたシーンセントリックモデルは、パブリックリーダーボードで上位にランクインし、忙しいシーンではエージェントセントリックの教師対応モデルよりも最大15倍効率的です。

要約(オリジナル)

Behavior prediction models have proliferated in recent years, especially in the popular real-world robotics application of autonomous driving, where representing the distribution over possible futures of moving agents is essential for safe and comfortable motion planning. In these models, the choice of coordinate frames to represent inputs and outputs has crucial trade offs which broadly fall into one of two categories. Agent-centric models transform inputs and perform inference in agent-centric coordinates. These models are intrinsically invariant to translation and rotation between scene elements, are best-performing on public leaderboards, but scale quadratically with the number of agents and scene elements. Scene-centric models use a fixed coordinate system to process all agents. This gives them the advantage of sharing representations among all agents, offering efficient amortized inference computation which scales linearly with the number of agents. However, these models have to learn invariance to translation and rotation between scene elements, and typically underperform agent-centric models. In this work, we develop knowledge distillation techniques between probabilistic motion forecasting models, and apply these techniques to close the gap in performance between agent-centric and scene-centric models. This improves scene-centric model performance by 13.2% on the public Argoverse benchmark, 7.8% on Waymo Open Dataset and up to 9.4% on a large In-House dataset. These improved scene-centric models rank highly in public leaderboards and are up to 15 times more efficient than their agent-centric teacher counterparts in busy scenes.

arxiv情報

著者 DiJia Su,Bertrand Douillard,Rami Al-Rfou,Cheolho Park,Benjamin Sapp
発行日 2022-06-08 15:36:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク