要約
本研究では、視覚に基づく2段階の6次元物体姿勢推定の局所的ロバスト性の認証に取り組む。物体姿勢推定のための2段階法は、最初にディープニューラルネットワーク主導のキーポイント回帰を採用し、次にパースペクティブnポイント(PnP)技術を適用することにより、優れた精度を達成する。進歩にもかかわらず、これらの手法のロバスト性の証明は依然として乏しい。本研究は、このギャップを埋めることを目的とし、システムレベルでの局所的な頑健性(意味的な入力摂動の中で頑健な推定を維持する能力)に焦点を当てる。核となるアイデアは、局所的ロバスト性の証明を、分類タスクのためのニューラルネットワーク検証に変換することである。課題は、市販の検証ツールに適合するモデル、入力、出力の仕様を開発することである。検証を容易にするために、検証プロセスに従順な非線形演算に置き換えることで、キーポイント検出モデルを修正する。一般的なように画像にランダムノイズを注入する代わりに、入力仕様として画像の凸包表現を採用し、意味的摂動をより正確に描写する。さらに、感度分析を行うことで、ロバスト性の基準をポーズからキーポイント精度へと伝播させ、キーポイント偏差の閾値を最大限許容できるように最適誤差閾値割り当て問題を定式化する。各画素を個々のクラスとみなし、これらの閾値は線形で分類に近い出力仕様となる。ある条件下で、我々の認証フレームワークの主要な構成要素が健全かつ完全であることを実証し、現実的な摂動に対する広範な評価を通じてその効果を検証する。我々の知る限り、これは、実世界のシナリオにおける画像が与えられた場合の、大規模なキーポイントに基づく姿勢推定の頑健性を認証した最初の研究である。
要約(オリジナル)
This work addresses the certification of the local robustness of vision-based two-stage 6D object pose estimation. The two-stage method for object pose estimation achieves superior accuracy by first employing deep neural network-driven keypoint regression and then applying a Perspective-n-Point (PnP) technique. Despite advancements, the certification of these methods’ robustness remains scarce. This research aims to fill this gap with a focus on their local robustness on the system level–the capacity to maintain robust estimations amidst semantic input perturbations. The core idea is to transform the certification of local robustness into neural network verification for classification tasks. The challenge is to develop model, input, and output specifications that align with off-the-shelf verification tools. To facilitate verification, we modify the keypoint detection model by substituting nonlinear operations with those more amenable to the verification processes. Instead of injecting random noise into images, as is common, we employ a convex hull representation of images as input specifications to more accurately depict semantic perturbations. Furthermore, by conducting a sensitivity analysis, we propagate the robustness criteria from pose to keypoint accuracy, and then formulating an optimal error threshold allocation problem that allows for the setting of a maximally permissible keypoint deviation thresholds. Viewing each pixel as an individual class, these thresholds result in linear, classification-akin output specifications. Under certain conditions, we demonstrate that the main components of our certification framework are both sound and complete, and validate its effects through extensive evaluations on realistic perturbations. To our knowledge, this is the first study to certify the robustness of large-scale, keypoint-based pose estimation given images in real-world scenarios.
arxiv情報
著者 | Xusheng Luo,Tianhao Wei,Simin Liu,Ziwei Wang,Luis Mattei-Mendez,Taylor Loper,Joshua Neighbor,Casidhe Hutchison,Changliu Liu |
発行日 | 2024-07-31 19:02:54+00:00 |
arxivサイト | arxiv_id(pdf) |