要約
実世界のロボットアプリケーションでは、様々なシナリオで確実に動作する物体姿勢推定法が求められています。最新の学習ベースのアプローチは、大規模なラベル付きデータセットを必要とし、トレーニング領域外ではパフォーマンスが低下する傾向があります。この補正器は、セマンティックキーポイント(ただし、他のポーズ推定器にも適用可能)で動作し、完全に微分可能である。第二の貢献は、複数のポーズ推定器を同時に自己教師付きで学習させるアンサンブル自己学習アプローチである。次に、観測可能な正しさの証明書を用いて出力の品質を評価し、最後に、外部の監視を必要とせずに、観測可能な正しさの出力をさらなる訓練に使用する、アンサンブル自己訓練アーキテクチャです。さらに、回帰に基づくキーポイント検出アーキテクチャに小さな改良を加え、外れ値に対する頑健性を向上させることを提案する。YCBVとTLESSデータセットでの実験により、提案するアンサンブル自己学習は、実データにおいて3Dアノテーションを必要とせず、完全教師ありのベースラインを上回る性能を持つことが示された。
要約(オリジナル)
Real-world robotics applications demand object pose estimation methods that work reliably across a variety of scenarios. Modern learning-based approaches require large labeled datasets and tend to perform poorly outside the training domain. Our first contribution is to develop a robust corrector module that corrects pose estimates using depth information, thus enabling existing methods to better generalize to new test domains; the corrector operates on semantic keypoints (but is also applicable to other pose estimators) and is fully differentiable. Our second contribution is an ensemble self-training approach that simultaneously trains multiple pose estimators in a self-supervised manner. Our ensemble self-training architecture uses the robust corrector to refine the output of each pose estimator; then, it evaluates the quality of the outputs using observable correctness certificates; finally, it uses the observably correct outputs for further training, without requiring external supervision. As an additional contribution, we propose small improvements to a regression-based keypoint detection architecture, to enhance its robustness to outliers; these improvements include a robust pooling scheme and a robust centroid computation. Experiments on the YCBV and TLESS datasets show the proposed ensemble self-training outperforms fully supervised baselines while not requiring 3D annotations on real data.
arxiv情報
著者 | Jingnan Shi,Rajat Talak,Dominic Maggio,Luca Carlone |
発行日 | 2023-05-11 18:46:39+00:00 |
arxivサイト | arxiv_id(pdf) |