Kick Back & Relax: Learning to Reconstruct the World by Watching SlowTV

要約

自己教師あり単眼深度推定 (SS-MDE) は、膨大な量のデータに拡張できる可能性があります。
残念ながら、既存のアプローチは自動車分野に限定されており、自然環境や屋内設定などの複雑な環境にモデルを一般化することができません。
これに対処するために、既存の自動車データセットよりも桁違いに多くのデータを含む、YouTube から厳選された大規模な SlowTV データセットを提案します。
SlowTV には、世界中の季節のハイキング、風光明媚なドライブ、スキューバ ダイビングなど、多種多様な環境からの 170 万枚の画像が含まれています。
このデータセットを使用して、屋内/屋外データセットの大規模なコレクションにゼロショット一般化を提供する SS-MDE モデルをトレーニングします。
結果として得られるモデルは、より効率的なアーキテクチャを使用しているにもかかわらず、既存のすべての SSL アプローチよりも優れたパフォーマンスを発揮し、教師あり SoTA とのギャップを埋めます。
さらに、パフォーマンスとゼロショットの一般化をさらに最大化するためのベスト プラクティスのコレクションを紹介します。
これには、1) アスペクト比の拡張、2) カメラ固有の推定、3) サポート フレームのランダム化、および 4) 柔軟な動き推定が含まれます。
コードは https://github.com/jspenmar/slowtv_mono Depth で入手できます。

要約(オリジナル)

Self-supervised monocular depth estimation (SS-MDE) has the potential to scale to vast quantities of data. Unfortunately, existing approaches limit themselves to the automotive domain, resulting in models incapable of generalizing to complex environments such as natural or indoor settings. To address this, we propose a large-scale SlowTV dataset curated from YouTube, containing an order of magnitude more data than existing automotive datasets. SlowTV contains 1.7M images from a rich diversity of environments, such as worldwide seasonal hiking, scenic driving and scuba diving. Using this dataset, we train an SS-MDE model that provides zero-shot generalization to a large collection of indoor/outdoor datasets. The resulting model outperforms all existing SSL approaches and closes the gap on supervised SoTA, despite using a more efficient architecture. We additionally introduce a collection of best-practices to further maximize performance and zero-shot generalization. This includes 1) aspect ratio augmentation, 2) camera intrinsic estimation, 3) support frame randomization and 4) flexible motion estimation. Code is available at https://github.com/jspenmar/slowtv_monodepth.

arxiv情報

著者 Jaime Spencer,Chris Russell,Simon Hadfield,Richard Bowden
発行日 2023-07-20 09:13:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク