A Correct-and-Certify Approach to Self-Supervise Object Pose Estimators via Ensemble Self-Training

要約

実世界のロボティクス アプリケーションでは、さまざまなシナリオで確実に機能するオブジェクトの姿勢推定方法が必要です。
最新の学習ベースのアプローチは、ラベル付けされた大規模なデータセットを必要とし、トレーニング ドメイン外ではパフォーマンスが低下する傾向があります。
私たちの最初の貢献は、深さ情報を使用して姿勢推定を修正する堅牢な修正モジュールを開発することです。これにより、既存の方法を新しいテストドメインにより一般化できるようになります。
コレクターはセマンティック キーポイントで動作し (ただし、他の姿勢推定器にも適用可能)、完全に微分可能です。
私たちの 2 番目の貢献は、複数の姿勢推定器を自己教師付きの方法で同時にトレーニングするアンサンブル自己トレーニング アプローチです。
私たちのアンサンブル自己トレーニング アーキテクチャは、堅牢な補正器を使用して、各姿勢推定器の出力を改善します。
次に、観察可能な正当性証明書を使用して出力の品質を評価します。
最後に、外部の監督を必要とせずに、観察可能な正しい出力を使用して、さらなるトレーニングを行います。
追加の貢献として、外れ値に対する堅牢性を強化するために、回帰ベースのキーポイント検出アーキテクチャの小さな改善を提案します。
これらの改善には、堅牢なプーリング スキームと堅牢なセントロイド計算が含まれます。
YCBV および TLESS データセットでの実験では、提案されたアンサンブル自己トレーニングが完全に監視されたベースラインよりも優れていることが示されていますが、実際のデータに 3D 注釈は必要ありません。

要約(オリジナル)

Real-world robotics applications demand object pose estimation methods that work reliably across a variety of scenarios. Modern learning-based approaches require large labeled datasets and tend to perform poorly outside the training domain. Our first contribution is to develop a robust corrector module that corrects pose estimates using depth information, thus enabling existing methods to better generalize to new test domains; the corrector operates on semantic keypoints (but is also applicable to other pose estimators) and is fully differentiable. Our second contribution is an ensemble self-training approach that simultaneously trains multiple pose estimators in a self-supervised manner. Our ensemble self-training architecture uses the robust corrector to refine the output of each pose estimator; then, it evaluates the quality of the outputs using observable correctness certificates; finally, it uses the observably correct outputs for further training, without requiring external supervision. As an additional contribution, we propose small improvements to a regression-based keypoint detection architecture, to enhance its robustness to outliers; these improvements include a robust pooling scheme and a robust centroid computation. Experiments on the YCBV and TLESS datasets show the proposed ensemble self-training outperforms fully supervised baselines while not requiring 3D annotations on real data.

arxiv情報

著者 Jingnan Shi,Rajat Talak,Dominic Maggio,Luca Carlone
発行日 2023-02-12 23:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク