Predicting Long-horizon Futures by Conditioning on Geometry and Time

要約

私たちの研究では、過去を条件とした将来のセンサー観測を生成するタスクを探索します。
私たちは、自動運転車などのロボット応用だけでなく、神経科学からの「予測コーディング」概念によって動機付けられています。
将来はマルチモーダルになる可能性があり、大規模な学習は依然としてビデオ処理の計算コストがかかるため、予測ビデオ モデリングは困難です。
両方の課題に対処するために、私たちの重要な洞察は、マルチモダリティを処理できる画像拡散モデルの大規模な事前トレーニングを活用することです。
新しいフレームのタイムスタンプを条件付けすることで、画像モデルをビデオ予測に再利用します。
このようなモデルは、静的シーンと動的シーンの両方のビデオを使用してトレーニングできます。
適度なサイズのデータ​​セットでトレーニングできるようにするため、モデルに(疑似)深度を予測させることで照明とテクスチャを除外することで不変性を導入します。これは、既製の単眼深度ネットワークを介して野生のビデオで容易に取得できます。

実際、ネットワークを変更してグレースケール ピクセルを予測するだけで、ビデオ予測の精度がすでに向上していることを示しています。
タイムスタンプ調整による追加の制御性を考慮して、従来の自己回帰および階層サンプリング戦略よりもうまく機能するサンプリング スケジュールを提案します。
物体予測に関する文献からの確率的メトリクスに基づいて、屋内と屋外のシーンおよび物体の大量のボキャブラリにわたる多様なビデオのセットに関するビデオ予測のベンチマークを作成します。
私たちの実験は、タイムスタンプを条件とする学習の有効性を示し、不変のモダリティで未来を予測することの重要性を示しています。

要約(オリジナル)

Our work explores the task of generating future sensor observations conditioned on the past. We are motivated by `predictive coding’ concepts from neuroscience as well as robotic applications such as self-driving vehicles. Predictive video modeling is challenging because the future may be multi-modal and learning at scale remains computationally expensive for video processing. To address both challenges, our key insight is to leverage the large-scale pretraining of image diffusion models which can handle multi-modality. We repurpose image models for video prediction by conditioning on new frame timestamps. Such models can be trained with videos of both static and dynamic scenes. To allow them to be trained with modestly-sized datasets, we introduce invariances by factoring out illumination and texture by forcing the model to predict (pseudo) depth, readily obtained for in-the-wild videos via off-the-shelf monocular depth networks. In fact, we show that simply modifying networks to predict grayscale pixels already improves the accuracy of video prediction. Given the extra controllability with timestamp conditioning, we propose sampling schedules that work better than the traditional autoregressive and hierarchical sampling strategies. Motivated by probabilistic metrics from the object forecasting literature, we create a benchmark for video prediction on a diverse set of videos spanning indoor and outdoor scenes and a large vocabulary of objects. Our experiments illustrate the effectiveness of learning to condition on timestamps, and show the importance of predicting the future with invariant modalities.

arxiv情報

著者 Tarasha Khurana,Deva Ramanan
発行日 2024-04-17 16:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク