Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs

要約

最近のアプローチは、静的再構成のセグメンテーションに焦点を合わせており、それにより、セマンティック3D理解を下流のアプリケーションに装備しています。
しかし、私たちが住んでいる世界は動的であり、環境と人間またはロボット剤の間の多数の相互作用によって特徴付けられます。
静的セマンティックマップはこの情報をキャプチャすることができず、すべての変更がコストがかかり、追跡が効果的でない後、環境を再実行する素朴な解決策。
引き出しに保管されているオブジェクト。
Lost&Subtを見つけて、この制限に対処するアプローチを提示します。
対応するハンド位置とカメラのポーズ推定値を持つエゴセントリック録音のみに基づいて、検出されたインタラクション間隔内で移動オブジェクトの6DOFポーズを追跡できます。
これらの変更は、オブジェクトレベルの関係をキャプチャする変換可能なシーングラフにオンラインで適用されます。
最先端のオブジェクトポーズトラッカーと比較して、私たちのアプローチは、挑戦的なエゴセントリックな視点と深さ情報の欠如を処理する上でより信頼性が高くなります。
翻訳エラーと方向誤差について、それぞれ34%と56%の2番目に良いアプローチを上回り、目に見えてスムーズな6DOFオブジェクトの軌跡を生成します。
さらに、動的シーングラフの取得した相互作用情報を、そうでなければ実行不可能なロボットアプリケーションのコンテキストでどのように使用できるかを説明します。私たちの方法により、ティーチと繰り返しを通じてモバイルマニピュレーターにコマンドを可能にする方法と、以前のインタラクションに関する情報がどのようにモバイルマニピュレーターが引き出しに隠されたオブジェクトを取得できるかを示します。
コード、ビデオ、および対応するデータは、https://behretj.github.io/lostandfoundでアクセスできます。

要約(オリジナル)

Recent approaches have successfully focused on the segmentation of static reconstructions, thereby equipping downstream applications with semantic 3D understanding. However, the world in which we live is dynamic, characterized by numerous interactions between the environment and humans or robotic agents. Static semantic maps are unable to capture this information, and the naive solution of rescanning the environment after every change is both costly and ineffective in tracking e.g. objects being stored away in drawers. With Lost & Found we present an approach that addresses this limitation. Based solely on egocentric recordings with corresponding hand position and camera pose estimates, we are able to track the 6DoF poses of the moving object within the detected interaction interval. These changes are applied online to a transformable scene graph that captures object-level relations. Compared to state-of-the-art object pose trackers, our approach is more reliable in handling the challenging egocentric viewpoint and the lack of depth information. It outperforms the second-best approach by 34% and 56% for translational and orientational error, respectively, and produces visibly smoother 6DoF object trajectories. In addition, we illustrate how the acquired interaction information in the dynamic scene graph can be employed in the context of robotic applications that would otherwise be unfeasible: We show how our method allows to command a mobile manipulator through teach & repeat, and how information about prior interaction allows a mobile manipulator to retrieve an object hidden in a drawer. Code, videos and corresponding data are accessible at https://behretj.github.io/LostAndFound.

arxiv情報

著者 Tjark Behrens,René Zurbrügg,Marc Pollefeys,Zuria Bauer,Hermann Blum
発行日 2025-03-11 09:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク