Future Object Detection with Spatiotemporal Transformers

要約

未来のオブジェクト検出タスクを提案します。このタスクの目標は、将来のビデオ フレーム内のすべての可視オブジェクトの境界ボックスを予測することです。
このタスクには、意味的および幾何学的パターンに加えて、時間的および運動学的パターンの認識が含まれますが、費用のかかる完全なシーケンス アノテーションとは対照的に、個々の単一 (将来) フレームの標準形式のアノテーションのみが必要です。
このタスクにエンドツーエンドの方法で取り組むことを提案します。この方法では、検出トランスフォーマーが将来のオブジェクトを直接出力するようにトレーニングされます。
未来について正確な予測を行うには、オブジェクトの動きと自我カメラの動きの両方で、シーンのダイナミクスをキャプチャする必要があります。
この目的のために、既存の検出トランスを 2 つの方法で拡張します。
まず、ネットワークが複数のフレームを時空間的に処理できるようにする 3 つの異なるメカニズムを実験します。
次に、自我運動情報を学習可能な方法でモデルに提供します。
これらの拡張機能の両方が、将来のオブジェクト検出パフォーマンスを大幅に改善することを示しています。
私たちの最終的なアプローチは、ダイナミクスを捉えることを学習し、最大 100 ミリ秒の予測期間でオラクルと同等の予測を行い、より長い予測期間ではすべてのベースラインを上回ります。
アテンション マップを視覚化することで、ネットワーク内に追跡の形式が出現することがわかります。
コードは github.com/atonderski/future-object-detection で入手できます。

要約(オリジナル)

We propose the task Future Object Detection, in which the goal is to predict the bounding boxes for all visible objects in a future video frame. While this task involves recognizing temporal and kinematic patterns, in addition to the semantic and geometric ones, it only requires annotations in the standard form for individual, single (future) frames, in contrast to expensive full sequence annotations. We propose to tackle this task with an end-to-end method, in which a detection transformer is trained to directly output the future objects. In order to make accurate predictions about the future, it is necessary to capture the dynamics in the scene, both object motion and the movement of the ego-camera. To this end, we extend existing detection transformers in two ways. First, we experiment with three different mechanisms that enable the network to spatiotemporally process multiple frames. Second, we provide ego-motion information to the model in a learnable manner. We show that both of these extensions improve the future object detection performance substantially. Our final approach learns to capture the dynamics and makes predictions on par with an oracle for prediction horizons up to 100 ms, and outperforms all baselines for longer prediction horizons. By visualizing the attention maps, we observe that a form of tracking emerges within the network. Code is available at github.com/atonderski/future-object-detection.

arxiv情報

著者 Adam Tonderski,Joakim Johnander,Christoffer Petersson,Kalle Åström
発行日 2022-10-17 13:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク