ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation

要約

医療および産業分野では、効率と安全性を確保するために組み立てプロセスのガイダンスを提供することが重要です。
組み立てミスは、手術時間の延長、業界における製造時間やメンテナンス時間の延長など、重大な結果を招く可能性があります。
組み立てシナリオでは、現場での AR 視覚化の恩恵を受けて、ガイダンスを提供し、組み立て時間を短縮し、エラーを最小限に抑えることができます。
現場での視覚化を可能にするために、6D 姿勢推定を活用できます。
既存の 6D 姿勢推定技術は主に個々のオブジェクトと静的キャプチャに焦点を当てています。
ただし、アセンブリ シナリオには、アセンブリ中のオクルージョンやアセンブリ オブジェクトの外観のダイナミクスなど、さまざまなダイナミクスがあります。
物体検出/6D 姿勢推定とアセンブリ状態検出を組み合わせた既存の研究は、純粋な深層学習ベースのアプローチに焦点を当てているか、アセンブリ状態検出を構成要素に限定しています。
アセンブリ状態検出と組み合わせた 6D 姿勢推定の課題に対処するために、私たちのアプローチ ASDF は、リアルタイム対応のオブジェクト検出フレームワークである YOLOv8 の長所を基盤に構築されています。
このフレームワークを拡張し、オブジェクトのポーズを改良し、ポーズの知識とネットワークで検出されたポーズ情報を融合します。
Pose2State モジュールで後期融合を利用することで、洗練された 6D 姿勢推定とアセンブリ状態検出が実現します。
ポーズ情報と状態情報の両方を組み合わせることで、Pose2State モジュールは最終的なアセンブリ状態を正確に予測します。
ASDF データセットに対する評価では、Pose2State モジュールによってアセンブリ状態の検出が向上し、アセンブリ状態の改善によりさらに堅牢な 6D 姿勢推定が可能になることが示されています。
さらに、GBOT データセットでは、純粋な深層学習ベースのネットワークよりも優れたパフォーマンスを発揮し、ハイブリッドおよび純粋な追跡ベースのアプローチよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

In medical and industrial domains, providing guidance for assembly processes is critical to ensure efficiency and safety. Errors in assembly can lead to significant consequences such as extended surgery times, and prolonged manufacturing or maintenance times in industry. Assembly scenarios can benefit from in-situ AR visualization to provide guidance, reduce assembly times and minimize errors. To enable in-situ visualization 6D pose estimation can be leveraged. Existing 6D pose estimation techniques primarily focus on individual objects and static captures. However, assembly scenarios have various dynamics including occlusion during assembly and dynamics in the assembly objects appearance. Existing work, combining object detection/6D pose estimation and assembly state detection focuses either on pure deep learning-based approaches, or limit the assembly state detection to building blocks. To address the challenges of 6D pose estimation in combination with assembly state detection, our approach ASDF builds upon the strengths of YOLOv8, a real-time capable object detection framework. We extend this framework, refine the object pose and fuse pose knowledge with network-detected pose information. Utilizing our late fusion in our Pose2State module results in refined 6D pose estimation and assembly state detection. By combining both pose and state information, our Pose2State module predicts the final assembly state with precision. Our evaluation on our ASDF dataset shows that our Pose2State module leads to an improved assembly state detection and that the improvement of the assembly state further leads to a more robust 6D pose estimation. Moreover, on the GBOT dataset, we outperform the pure deep learning-based network, and even outperform the hybrid and pure tracking-based approaches.

arxiv情報

著者 Hannah Schieber,Shiyu Li,Niklas Corell,Philipp Beckerle,Julian Kreimeier,Daniel Roth
発行日 2024-04-11 23:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク