DeformGS: Scene Flow in Highly Deformable Scenes for Deformable Object Manipulation

要約

布などの変形可能な物体を折りたたんだり、ドレープしたり、位置を変更したりする方法をロボットに教えることで、さまざまな自動化アプリケーションが可能になります。
剛体オブジェクトの操作は目覚ましい進歩を遂げてきましたが、変形可能なオブジェクトの操作には、頻繁なオクルージョン、無限次元の状態空間、複雑なダイナミクスなどの特有の課題が伴います。
物体の姿勢推定と追跡がロボットの剛体操作を支援してきたのと同様に、高度に変形可能な物体の高密度 3D 追跡 (シーン フロー) により、模倣学習や real2sim 転送によるデジタル ツインの作成などの既存のアプローチを支援しながら、ロボット工学における新しいアプリケーションが可能になります。
我々は、複数のカメラからの動的なシーンの同時ビデオ キャプチャを使用して、高度に変形可能なシーンのシーン フローを復元するアプローチである DeformGS を提案します。
DeformGS は、最先端の高速なノベルビュー合成のために多数のガウスのプロパティを学習する方法であるガウス スプラッティングの最近の進歩に基づいて構築されています。
DeformGS は、標準プロパティを持つ一連のガウス分布をワールド空間に投影するための変形関数を学習します。
変形関数は、ニューラル ボクセル エンコーディングと多層パーセプトロン (MLP) を使用して、ガウス位置、回転、およびシャドウ スカラーを推測します。
運動量とアイソメトリの保存に基づいて物理学にヒントを得た正則化項を適用することで、軌道誤差がより小さい軌道を実現します。
また、既存の基盤モデル SAM および XMEM を活用してノイズの多いマスクを生成し、物理学に基づいた正則化を改善するためにガウスごとのマスクを学習します。
DeformGS は、シャドウやオクルージョンのある高度に変形可能なシーンで高品質の 3D トラッキングを実現します。
実験では、DeformGS は最先端のものと比較して 3D トラッキングを平均 55.8% 改善しました。
十分なテクスチャーを備えた DeformGS は、面積 1.5 x 1.5 m の布上で中央値 3.3 mm のトラッキング エラーを達成します。
ウェブサイト: https://deformgs.github.io

要約(オリジナル)

Teaching robots to fold, drape, or reposition deformable objects such as cloth will unlock a variety of automation applications. While remarkable progress has been made for rigid object manipulation, manipulating deformable objects poses unique challenges, including frequent occlusions, infinite-dimensional state spaces and complex dynamics. Just as object pose estimation and tracking have aided robots for rigid manipulation, dense 3D tracking (scene flow) of highly deformable objects will enable new applications in robotics while aiding existing approaches, such as imitation learning or creating digital twins with real2sim transfer. We propose DeformGS, an approach to recover scene flow in highly deformable scenes, using simultaneous video captures of a dynamic scene from multiple cameras. DeformGS builds on recent advances in Gaussian splatting, a method that learns the properties of a large number of Gaussians for state-of-the-art and fast novel-view synthesis. DeformGS learns a deformation function to project a set of Gaussians with canonical properties into world space. The deformation function uses a neural-voxel encoding and a multilayer perceptron (MLP) to infer Gaussian position, rotation, and a shadow scalar. We enforce physics-inspired regularization terms based on conservation of momentum and isometry, which leads to trajectories with smaller trajectory errors. We also leverage existing foundation models SAM and XMEM to produce noisy masks, and learn a per-Gaussian mask for better physics-inspired regularization. DeformGS achieves high-quality 3D tracking on highly deformable scenes with shadows and occlusions. In experiments, DeformGS improves 3D tracking by an average of 55.8% compared to the state-of-the-art. With sufficient texture, DeformGS achieves a median tracking error of 3.3 mm on a cloth of 1.5 x 1.5 m in area. Website: https://deformgs.github.io

arxiv情報

著者 Bardienus P. Duisterhof,Zhao Mandi,Yunchao Yao,Jia-Wei Liu,Jenny Seidenschwarz,Mike Zheng Shou,Deva Ramanan,Shuran Song,Stan Birchfield,Bowen Wen,Jeffrey Ichnowski
発行日 2024-08-30 15:16:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク