Doduo: Learning Dense Visual Correspondence from Unsupervised Semantic-Aware Flow

要約

密な視覚的対応はロボットの認識において重要な役割を果たします。
この作品は、大幅に変化するダイナミックなシーンを捉える、一対の画像間の密な対応関係を確立することに焦点を当てています。
Doduo を導入して、グラウンド トゥルースの監督なしで、実際の画像やビデオから一般的な密な視覚的対応を学習します。
1 組の画像が与えられると、一方の画像の各ピクセルのもう一方の画像の対応するピクセルへの変位をエンコードした密流場を推定します。
Doduo は、フローベースのワーピングを使用して、トレーニング用の監視信号を取得します。
Doduo は、セマンティック事前情報と自己教師ありフロー トレーニングを組み込んで、シーンの動的な変化に堅牢な正確な密な対応を生成します。
野生のビデオ データセットでトレーニングされた Doduo は、ポイントレベルの対応推定において、既存の自己教師あり対応学習ベースラインを上回る優れたパフォーマンスを示しています。
また、Doduo を関節推定とゼロショット目標条件付き操作に適用し、ロボット工学における実際の応用例を強調します。
コードと追加の視覚エフェクトは https://ut-austin-rpl.github.io/Doduo で入手できます。

要約(オリジナル)

Dense visual correspondence plays a vital role in robotic perception. This work focuses on establishing the dense correspondence between a pair of images that captures dynamic scenes undergoing substantial transformations. We introduce Doduo to learn general dense visual correspondence from in-the-wild images and videos without ground truth supervision. Given a pair of images, it estimates the dense flow field encoding the displacement of each pixel in one image to its corresponding pixel in the other image. Doduo uses flow-based warping to acquire supervisory signals for the training. Incorporating semantic priors with self-supervised flow training, Doduo produces accurate dense correspondence robust to the dynamic changes of the scenes. Trained on an in-the-wild video dataset, Doduo illustrates superior performance on point-level correspondence estimation over existing self-supervised correspondence learning baselines. We also apply Doduo to articulation estimation and zero-shot goal-conditioned manipulation, underlining its practical applications in robotics. Code and additional visualizations are available at https://ut-austin-rpl.github.io/Doduo

arxiv情報

著者 Zhenyu Jiang,Hanwen Jiang,Yuke Zhu
発行日 2023-09-26 17:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク