Cycle-Correspondence Loss: Learning Dense View-Invariant Visual Features from Unlabeled and Unordered RGB Images

要約

学習されたオブジェクト中心記述子に依存したロボット操作は、近年一般的になりました。
視覚的記述子は、操作タスクの目的を簡単に記述でき、自己監視を使用して効率的に学習でき、作動するオブジェクトや非剛体オブジェクトさえもエンコードできます。
ただし、自己教師ありアプローチで堅牢でビュー不変のキーポイントを学習するには、正確なキャリブレーションと専門家の監督を伴う綿密なデータ収集アプローチが必要です。
この論文では、ビュー不変の密な記述子学習のためのサイクル対応損失 (CCL) を紹介します。これはサイクル一貫性の概念を採用し、単純なデータ収集パイプラインとペアになっていない RGB カメラ ビューでのトレーニングを可能にします。
重要なアイデアは、推定された信頼度に基づいて誤差項をスケーリングしながら、新しい画像に対する予測を使用して元の画像内の元のピクセルを予測しようとすることで、有効なピクセルの対応関係を自律的に検出することです。
私たちの評価では、キーポイント追跡と下流のロボット把握タスクの両方に関して、他の自己教師あり RGB のみの手法よりも優れており、教師あり手法のパフォーマンスに近づいていることが示されています。

要約(オリジナル)

Robot manipulation relying on learned object-centric descriptors became popular in recent years. Visual descriptors can easily describe manipulation task objectives, they can be learned efficiently using self-supervision, and they can encode actuated and even non-rigid objects. However, learning robust, view-invariant keypoints in a self-supervised approach requires a meticulous data collection approach involving precise calibration and expert supervision. In this paper we introduce Cycle-Correspondence Loss (CCL) for view-invariant dense descriptor learning, which adopts the concept of cycle-consistency, enabling a simple data collection pipeline and training on unpaired RGB camera views. The key idea is to autonomously detect valid pixel correspondences by attempting to use a prediction over a new image to predict the original pixel in the original image, while scaling error terms based on the estimated confidence. Our evaluation shows that we outperform other self-supervised RGB-only methods, and approach performance of supervised methods, both with respect to keypoint tracking as well as for a robot grasping downstream task.

arxiv情報

著者 David B. Adrian,Andras Gabor Kupcsik,Markus Spies,Heiko Neumann
発行日 2024-06-18 09:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク