要約
BOPチャレンジ2024の評価方法、データセット、結果について発表する。BOPチャレンジ2024は、6次元物体ポーズ推定と関連タスクの技術状況を把握するために開催された公開コンペティションの第6回である。2024年、我々の目標は、BOPを実験室のようなセットアップから実世界のシナリオに移行させることであった。第一に、3Dオブジェクトモデルが利用できず、提供された参照ビデオのみからオブジェクトを搭載する必要がある、新しいモデルフリータスクを導入しました。第二に、より実用的な新しい6次元物体検出タスクを定義し、テスト画像に見える物体の識別情報を入力として提供しない。第三に、高解像度センサーとAR/VRヘッドセットで記録された、実世界のシナリオに近い新しいBOP-H3データセットを導入した。BOP-H3には、モデルベースとモデルフリーの両方のタスクをサポートする3Dモデルとオンボードビデオが含まれています。参加者は、タスク、オブジェクトのオンボーディングセットアップ、データセットグループによって定義された7つのチャレンジトラックで競った。注目すべきは、モデルベース6Dローカライゼーションの2024年最優秀手法(FreeZeV2.1)は、BOP-Classic-Coreにおいて、2023年最優秀手法(GenFlow)よりも22%高い精度を達成し、2023年最優秀手法(GPose2023)とは4%しか差がなかったことです。このタスクのより実用的な2024メソッドはCo-opで、1画像あたり0.8秒しかかからず、GenFlowより25倍速く、13%正確です。各手法は6Dローカライゼーションと同様に6D検出においても同様の順位にあるが、実行時間はより長い。未見のオブジェクトのモデルベースの2D検出では、2024の手法の中で最も優れた手法(MUSE)は、2023の手法の中で最も優れた手法(CNOS)と比較して、21%の相対的な改善を達成している。しかし、未視認物体の2次元検出精度は、視認物体の検出精度(GDet2023)に比べ、まだ顕著に(-53%)遅れている。オンライン評価システムはオープンで、http://bop.felk.cvut.cz/。
要約(オリジナル)
We present the evaluation methodology, datasets and results of the BOP Challenge 2024, the sixth in a series of public competitions organized to capture the state of the art in 6D object pose estimation and related tasks. In 2024, our goal was to transition BOP from lab-like setups to real-world scenarios. First, we introduced new model-free tasks, where no 3D object models are available and methods need to onboard objects just from provided reference videos. Second, we defined a new, more practical 6D object detection task where identities of objects visible in a test image are not provided as input. Third, we introduced new BOP-H3 datasets recorded with high-resolution sensors and AR/VR headsets, closely resembling real-world scenarios. BOP-H3 include 3D models and onboarding videos to support both model-based and model-free tasks. Participants competed on seven challenge tracks, each defined by a task, object onboarding setup, and dataset group. Notably, the best 2024 method for model-based 6D localization of unseen objects (FreeZeV2.1) achieves 22% higher accuracy on BOP-Classic-Core than the best 2023 method (GenFlow), and is only 4% behind the best 2023 method for seen objects (GPose2023) although being significantly slower (24.9 vs 2.7s per image). A more practical 2024 method for this task is Co-op which takes only 0.8s per image and is 25X faster and 13% more accurate than GenFlow. Methods have a similar ranking on 6D detection as on 6D localization but higher run time. On model-based 2D detection of unseen objects, the best 2024 method (MUSE) achieves 21% relative improvement compared to the best 2023 method (CNOS). However, the 2D detection accuracy for unseen objects is still noticealy (-53%) behind the accuracy for seen objects (GDet2023). The online evaluation system stays open and is available at http://bop.felk.cvut.cz/
arxiv情報
| 著者 | Van Nguyen Nguyen,Stephen Tyree,Andrew Guo,Mederic Fourmy,Anas Gouda,Taeyeop Lee,Sungphill Moon,Hyeontae Son,Lukas Ranftl,Jonathan Tremblay,Eric Brachmann,Bertram Drost,Vincent Lepetit,Carsten Rother,Stan Birchfield,Jiri Matas,Yann Labbe,Martin Sundermeyer,Tomas Hodan |
| 発行日 | 2025-04-03 17:55:19+00:00 |
| arxivサイト | arxiv_id(pdf) |