ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation

要約

医療および産業分野では、効率と安全性を確保するために、組み立てプロセスのガイダンスを提供することが重要な場合があります。
組み立てミスは、手術時間の延長、産業における製造時間やメンテナンス時間の延長など、重大な結果を招く可能性があります。
組み立てシナリオでは、その場での拡張現実視覚化、つまり、ターゲット オブジェクトのすぐ近くでの拡張の恩恵を受けて、ガイドを提供し、組み立て時間を短縮し、エラーを最小限に抑えることができます。
現場での視覚化を可能にするために、6D 姿勢推定を利用して増強の正しい位置を特定できます。
既存の 6D 姿勢推定技術は主に個々のオブジェクトと静的キャプチャに焦点を当てています。
ただし、アセンブリ シナリオには、アセンブリ中のオクルージョンやアセンブリ オブジェクトの外観のダイナミクスなど、さまざまなダイナミクスがあります。
既存の研究は、状態検出と組み合わせた物体検出に焦点を当てているか、純粋に姿勢推定に焦点を当てています。
アセンブリ状態検出と組み合わせた 6D 姿勢推定の課題に対処するために、私たちのアプローチ ASDF は、リアルタイム対応のオブジェクト検出フレームワークである YOLOv8 の長所を基盤に構築されています。
このフレームワークを拡張し、オブジェクトのポーズを改良し、ポーズの知識とネットワークで検出されたポーズ情報を融合します。
Pose2State モジュールで後期融合を利用することで、洗練された 6D 姿勢推定とアセンブリ状態検出が実現します。
ポーズ情報と状態情報の両方を組み合わせることで、Pose2State モジュールは最終的なアセンブリ状態を正確に予測します。
ASDF データセットの評価では、Pose2State モジュールによってアセンブリ状態の検出が改善され、アセンブリ状態の改善によりさらに堅牢な 6D 姿勢推定が行われることがわかりました。
さらに、GBOT データセットでは、純粋な深層学習ベースのネットワークを上回り、ハイブリッドおよび純粋な追跡ベースのアプローチをも上回ります。

要約(オリジナル)

In medical and industrial domains, providing guidance for assembly processes can be critical to ensure efficiency and safety. Errors in assembly can lead to significant consequences such as extended surgery times and prolonged manufacturing or maintenance times in industry. Assembly scenarios can benefit from in-situ augmented reality visualization, i.e., augmentations in close proximity to the target object, to provide guidance, reduce assembly times, and minimize errors. In order to enable in-situ visualization, 6D pose estimation can be leveraged to identify the correct location for an augmentation. Existing 6D pose estimation techniques primarily focus on individual objects and static captures. However, assembly scenarios have various dynamics, including occlusion during assembly and dynamics in the appearance of assembly objects. Existing work focus either on object detection combined with state detection, or focus purely on the pose estimation. To address the challenges of 6D pose estimation in combination with assembly state detection, our approach ASDF builds upon the strengths of YOLOv8, a real-time capable object detection framework. We extend this framework, refine the object pose, and fuse pose knowledge with network-detected pose information. Utilizing our late fusion in our Pose2State module results in refined 6D pose estimation and assembly state detection. By combining both pose and state information, our Pose2State module predicts the final assembly state with precision. The evaluation of our ASDF dataset shows that our Pose2State module leads to an improved assembly state detection and that the improvement of the assembly state further leads to a more robust 6D pose estimation. Moreover, on the GBOT dataset, we outperform the pure deep learning-based network and even outperform the hybrid and pure tracking-based approaches.

arxiv情報

著者 Hannah Schieber,Shiyu Li,Niklas Corell,Philipp Beckerle,Julian Kreimeier,Daniel Roth
発行日 2024-08-09 09:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク