要約
最近のアプローチは、静的再構成のセグメンテーションに重点を置くことに成功し、それによって下流のアプリケーションにセマンティック 3D の理解を提供できるようになりました。
しかし、私たちが住む世界は動的であり、環境と人間またはロボットエージェントとの間の数多くの相互作用によって特徴付けられます。
静的セマンティック マップはこの情報をキャプチャできず、変更のたびに環境を再スキャンするという単純な解決策はコストがかかり、追跡において非効率的です。
引き出しに収納されている物。
Lost & Found では、この制限に対処するアプローチを提供します。
対応する手の位置とカメラのポーズ推定を伴う自己中心的な記録のみに基づいて、検出されたインタラクション間隔内で移動オブジェクトの 6DoF ポーズを追跡することができます。
これらの変更は、オブジェクト レベルの関係をキャプチャする変換可能なシーン グラフにオンラインで適用されます。
最先端のオブジェクト ポーズ トラッカーと比較して、私たちのアプローチは、困難な自己中心的な視点と奥行き情報の欠如を処理する上でより信頼性が高くなります。
これは、並進誤差と方向誤差に関して、2 番目に優れたアプローチよりもそれぞれ 34% と 56% 優れており、目に見えてよりスムーズな 6DoF オブジェクトの軌道を生成します。
さらに、動的シーン グラフで取得したインタラクション情報を、他の方法では実現不可能なロボット アプリケーションのコンテキストでどのように利用できるかを説明します。私たちの方法により、ティーチ アンド リピートを通じてモバイル マニピュレータにどのように命令できるか、また、
事前の対話により、モバイルマニピュレータは引き出しに隠されたオブジェクトを取得できます。
コード、ビデオ、および対応するデータは https://behretj.github.io/LostAndFound からアクセスできます。
要約(オリジナル)
Recent approaches have successfully focused on the segmentation of static reconstructions, thereby equipping downstream applications with semantic 3D understanding. However, the world in which we live is dynamic, characterized by numerous interactions between the environment and humans or robotic agents. Static semantic maps are unable to capture this information, and the naive solution of rescanning the environment after every change is both costly and ineffective in tracking e.g. objects being stored away in drawers. With Lost & Found we present an approach that addresses this limitation. Based solely on egocentric recordings with corresponding hand position and camera pose estimates, we are able to track the 6DoF poses of the moving object within the detected interaction interval. These changes are applied online to a transformable scene graph that captures object-level relations. Compared to state-of-the-art object pose trackers, our approach is more reliable in handling the challenging egocentric viewpoint and the lack of depth information. It outperforms the second-best approach by 34% and 56% for translational and orientational error, respectively, and produces visibly smoother 6DoF object trajectories. In addition, we illustrate how the acquired interaction information in the dynamic scene graph can be employed in the context of robotic applications that would otherwise be unfeasible: We show how our method allows to command a mobile manipulator through teach & repeat, and how information about prior interaction allows a mobile manipulator to retrieve an object hidden in a drawer. Code, videos and corresponding data are accessible at https://behretj.github.io/LostAndFound.
arxiv情報
著者 | Tjark Behrens,René Zurbrügg,Marc Pollefeys,Zuria Bauer,Hermann Blum |
発行日 | 2024-11-28 14:05:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google