Narrowing the Coordinate-frame Gap in Behavior Prediction Models: Distillation for Efficient and Accurate Scene-centric Motion Forecasting

要約

行動予測モデルは、特に自動運転の一般的な実世界のロボット工学アプリケーションで急増しています。自動運転では、安全で快適な動作計画のために、移動するエージェントの将来の分布を表すことが不可欠です。
これらのモデルでは、入力と出力を表す座標フレームの選択には、大きく2つのカテゴリのいずれかに分類される重要なトレードオフがあります。
エージェント中心のモデルは、入力を変換し、エージェント中心の座標で推論を実行します。
これらのモデルは、シーン要素間の平行移動と回転に対して本質的に不変であり、パブリックリーダーボードで最高のパフォーマンスを発揮しますが、エージェントとシーン要素の数に比例してスケーリングします。
シーン中心のモデルは、固定座標系を使用してすべてのエージェントを処理します。
これにより、すべてのエージェント間で表現を共有できるという利点が得られ、エージェントの数に比例してスケーリングする効率的な償却推論計算が提供されます。
ただし、これらのモデルは、シーン要素間の平行移動と回転に対する不変性を学習する必要があり、通常、エージェント中心のモデルよりもパフォーマンスが低くなります。
この作業では、確率的モーション予測モデル間の知識蒸留技術を開発し、これらの技術を適用して、エージェント中心モデルとシーン中心モデルの間のパフォーマンスのギャップを埋めます。
これにより、シーン中心のモデルのパフォーマンスが、パブリックArgoverseベンチマークで13.2%、Waymo Openデータセットで7.8%、大規模な社内データセットで最大9.4%向上します。
これらの改善されたシーン中心のモデルは、パブリックリーダーボードで高くランク付けされており、忙しいシーンでのエージェント中心の教師のモデルよりも最大15倍効率的です。

要約(オリジナル)

Behavior prediction models have proliferated in recent years, especially in the popular real-world robotics application of autonomous driving, where representing the distribution over possible futures of moving agents is essential for safe and comfortable motion planning. In these models, the choice of coordinate frames to represent inputs and outputs has crucial trade offs which broadly fall into one of two categories. Agent-centric models transform inputs and perform inference in agent-centric coordinates. These models are intrinsically invariant to translation and rotation between scene elements, are best-performing on public leaderboards, but scale quadratically with the number of agents and scene elements. Scene-centric models use a fixed coordinate system to process all agents. This gives them the advantage of sharing representations among all agents, offering efficient amortized inference computation which scales linearly with the number of agents. However, these models have to learn invariance to translation and rotation between scene elements, and typically underperform agent-centric models. In this work, we develop knowledge distillation techniques between probabilistic motion forecasting models, and apply these techniques to close the gap in performance between agent-centric and scene-centric models. This improves scene-centric model performance by 13.2% on the public Argoverse benchmark, 7.8% on Waymo Open Dataset and up to 9.4% on a large In-House dataset. These improved scene-centric models rank highly in public leaderboards and are up to 15 times more efficient than their agent-centric teacher counterparts in busy scenes.

arxiv情報

著者 DiJia Su,Bertrand Douillard,Rami Al-Rfou,Cheolho Park,Benjamin Sapp
発行日 2022-06-10 17:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク