Amodal Optical Flow

要約

オプティカル フローの推定は、オブジェクトが透明または遮蔽されている状況では非常に困難です。
この研究では、オプティカル フローとアモーダル知覚を統合するアモーダル オプティカル フローを導入することで、タスク レベルでこれらの課題に対処します。
可視領域のみを表す代わりに、モーダル オプティカル フローを、シーンの可視領域と遮蔽領域の両方を包含する多層ピクセル レベルのモーション フィールドとして定義します。
この新しいタスクの研究を促進するために、AmodalSynthDrive データセットを拡張して、アモーダル オプティカル フロー推定用のピクセル レベルのラベルを含めます。
解釈可能な方法でパフォーマンスを定量化するために、いくつかの強力なベースラインと Amodal Flow Quality メトリクスを提示します。
さらに、この課題に対処するための最初のステップとして、新しい AmodalFlowNet を提案します。
AmodalFlowNet は、トランスフォーマーベースのコストボリュームエンコーダーとリカレントトランスフォーマーデコーダーの組み合わせで構成され、再帰的階層特徴の伝播とアモーダルセマンティックグラウンディングを容易にします。
私たちは広範な実験でアモーダル オプティカル フローの扱いやすさを実証し、パノプティック トラッキングなどの下流タスクでのその有用性を示します。
データセット、コード、トレーニング済みモデルは http://amodal-flow.cs.uni-freiburg.de で公開されています。

要約(オリジナル)

Optical flow estimation is very challenging in situations with transparent or occluded objects. In this work, we address these challenges at the task level by introducing Amodal Optical Flow, which integrates optical flow with amodal perception. Instead of only representing the visible regions, we define amodal optical flow as a multi-layered pixel-level motion field that encompasses both visible and occluded regions of the scene. To facilitate research on this new task, we extend the AmodalSynthDrive dataset to include pixel-level labels for amodal optical flow estimation. We present several strong baselines, along with the Amodal Flow Quality metric to quantify the performance in an interpretable manner. Furthermore, we propose the novel AmodalFlowNet as an initial step toward addressing this task. AmodalFlowNet consists of a transformer-based cost-volume encoder paired with a recurrent transformer decoder which facilitates recurrent hierarchical feature propagation and amodal semantic grounding. We demonstrate the tractability of amodal optical flow in extensive experiments and show its utility for downstream tasks such as panoptic tracking. We make the dataset, code, and trained models publicly available at http://amodal-flow.cs.uni-freiburg.de.

arxiv情報

著者 Maximilian Luz,Rohit Mohan,Ahmed Rida Sekkat,Oliver Sawade,Elmar Matthes,Thomas Brox,Abhinav Valada
発行日 2024-05-07 17:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク