要約
インターネットの指導ビデオから操作されたオブジェクトの一時的に一貫した6Dポーズ軌道を抽出しようとしています。
これは、制御されていないキャプチャ条件、微妙だが動的なオブジェクトの動き、および操作されたオブジェクトの正確なメッシュが不明であるという事実による現在の6Dポーズ推定方法の挑戦的なセットアップです。
これらの課題に対処するために、次の貢献を提示します。
まず、オブジェクト自体の事前知識なしに、入力画像内のオブジェクトの6Dポーズを推定する新しい方法を開発します。
このメソッドは、(i)大規模なモデルデータベースから描かれたオブジェクトに類似したCADモデルを取得すること、(ii)入力画像を取得したCADモデルを調整し、(iii)シーンに関してオブジェクトの絶対スケールを接地することによって進行します。
第二に、ビデオフレーム全体で検出されたオブジェクトを慎重に追跡することにより、インターネットビデオから滑らかな6Dオブジェクトの軌跡を抽出します。
抽出されたオブジェクトの軌跡は、軌跡の最適化を介してロボットマニピュレーターの構成空間にリターゲットされます。
第三に、YCB-VおよびHope-Videoデータセットに関する6Dポーズ推定方法、およびおおよその6Dオブジェクトの軌跡を手動で注釈を付けた教育ビデオの新しいデータセットを徹底的に評価して味付けします。
既存の最先端のRGB 6Dポーズ推定方法について大幅な改善を示します。
最後に、インターネットビデオから推定された6Dオブジェクトモーションを、仮想シミュレーターと現実世界のセットアップの両方で7軸ロボットマニピュレーターに転送できることを示します。
また、Epic-Kitchensデータセットから取得したエゴセントリックビデオに方法を適用し、具体化されたAIアプリケーションの可能性を示しています。
要約(オリジナル)
We seek to extract a temporally consistent 6D pose trajectory of a manipulated object from an Internet instructional video. This is a challenging set-up for current 6D pose estimation methods due to uncontrolled capturing conditions, subtle but dynamic object motions, and the fact that the exact mesh of the manipulated object is not known. To address these challenges, we present the following contributions. First, we develop a new method that estimates the 6D pose of any object in the input image without prior knowledge of the object itself. The method proceeds by (i) retrieving a CAD model similar to the depicted object from a large-scale model database, (ii) 6D aligning the retrieved CAD model with the input image, and (iii) grounding the absolute scale of the object with respect to the scene. Second, we extract smooth 6D object trajectories from Internet videos by carefully tracking the detected objects across video frames. The extracted object trajectories are then retargeted via trajectory optimization into the configuration space of a robotic manipulator. Third, we thoroughly evaluate and ablate our 6D pose estimation method on YCB-V and HOPE-Video datasets as well as a new dataset of instructional videos manually annotated with approximate 6D object trajectories. We demonstrate significant improvements over existing state-of-the-art RGB 6D pose estimation methods. Finally, we show that the 6D object motion estimated from Internet videos can be transferred to a 7-axis robotic manipulator both in a virtual simulator as well as in a real world set-up. We also successfully apply our method to egocentric videos taken from the EPIC-KITCHENS dataset, demonstrating potential for Embodied AI applications.
arxiv情報
著者 | Georgy Ponimatkin,Martin Cífka,Tomáš Souček,Médéric Fourmy,Yann Labbé,Vladimir Petrik,Josef Sivic |
発行日 | 2025-03-13 12:33:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google