FLODCAST: Flow and Depth Forecasting via Multimodal Recurrent Architectures

要約

物体の動きと空間的位置を予測することは、特に自動運転などの安全性が重要な環境では基本的に重要です。
この研究では、補完的な情報を運ぶ 2 つの異なるモダリティ、つまりオプティカル フローと深度を予測することでこの問題に対処します。
この目的を達成するために、私たちは、両方のモダリティを同時に予測するように訓練されたマルチタスクリカレントアーキテクチャを活用する、フローと深さの予測モデル FLODCAST を提案します。
私たちは、フローと深度マップを併用してトレーニングすることの重要性を強調し、モデルに他のモダリティが通知されると両方のタスクが改善されることを示しています。
提案されたモデルをトレーニングして、将来のいくつかのタイムステップの予測も実行します。
これにより、より適切な監視が提供され、より正確な予測が可能になり、将来の時間軸に対して自己回帰的に出力を生成するモデルの機能が維持されます。
私たちは、困難な都市景観データセットでモデルをテストし、流れと深さの予測の両方について最先端の結果を取得しました。
生成されたフローの高品質のおかげで、フローベースのマスク ワーピング フレームワークに予測を注入する、セグメンテーション予測の下流タスクにおける利点も報告しています。

要約(オリジナル)

Forecasting motion and spatial positions of objects is of fundamental importance, especially in safety-critical settings such as autonomous driving. In this work, we address the issue by forecasting two different modalities that carry complementary information, namely optical flow and depth. To this end we propose FLODCAST a flow and depth forecasting model that leverages a multitask recurrent architecture, trained to jointly forecast both modalities at once. We stress the importance of training using flows and depth maps together, demonstrating that both tasks improve when the model is informed of the other modality. We train the proposed model to also perform predictions for several timesteps in the future. This provides better supervision and leads to more precise predictions, retaining the capability of the model to yield outputs autoregressively for any future time horizon. We test our model on the challenging Cityscapes dataset, obtaining state of the art results for both flow and depth forecasting. Thanks to the high quality of the generated flows, we also report benefits on the downstream task of segmentation forecasting, injecting our predictions in a flow-based mask-warping framework.

arxiv情報

著者 Andrea Ciamarra,Federico Becattini,Lorenzo Seidenari,Alberto Del Bimbo
発行日 2023-10-31 16:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク