Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation

要約

この論文では、さまざまなフォームファクターを持つロボット間でクラスに依存しないビデオ セグメンテーションを改善するための大規模なデータセットを生成する方法を紹介します。
具体的には、ロボットの具体化がデータ生成プロセスに組み込まれている場合、一般的なセグメンテーション データでトレーニングされたビデオ セグメンテーション モデルが特定のロボット プラットフォームでより効果的になるかどうかという問題を検討します。
この質問に答えるために、3D 再構成 (HM3DSem など) を使用して、ロボットの実施形態 (センサーの種類、センサーの配置、照明源など) に基づいて構成可能なセグメント化されたビデオを生成するためのパイプラインが定式化されます。
結果として得られる大規模な RGB-D ビデオ パノプティック セグメンテーション データセット (MVPd) は、基礎およびビデオ セグメンテーション モデルを使用した広範なベンチマークのために導入され、ビデオ セグメンテーションにおける具体化に焦点を当てた研究をサポートします。
私たちの実験結果は、微調整に MVPd を使用すると、特定のカメラの配置など、基礎モデルを特定のロボットの実施形態に転送するときにパフォーマンスの向上につながる可能性があることを示しています。
これらの実験は、3D モダリティ (深度画像とカメラのポーズ) を使用すると、ビデオ セグメンテーションの精度と一貫性が向上する可能性があることも示しています。
プロジェクトの Web ページは https://topipari.com/projects/MVPd から入手できます。

要約(オリジナル)

This paper presents a method for generating large-scale datasets to improve class-agnostic video segmentation across robots with different form factors. Specifically, we consider the question of whether video segmentation models trained on generic segmentation data could be more effective for particular robot platforms if robot embodiment is factored into the data generation process. To answer this question, a pipeline is formulated for using 3D reconstructions (e.g. from HM3DSem) to generate segmented videos that are configurable based on a robot’s embodiment (e.g. sensor type, sensor placement, and illumination source). A resulting massive RGB-D video panoptic segmentation dataset (MVPd) is introduced for extensive benchmarking with foundation and video segmentation models, as well as to support embodiment-focused research in video segmentation. Our experimental findings demonstrate that using MVPd for finetuning can lead to performance improvements when transferring foundation models to certain robot embodiments, such as specific camera placements. These experiments also show that using 3D modalities (depth images and camera pose) can lead to improvements in video segmentation accuracy and consistency. The project webpage is available at https://topipari.com/projects/MVPd

arxiv情報

著者 Anthony Opipari,Aravindhan K Krishnan,Shreekant Gayaka,Min Sun,Cheng-Hao Kuo,Arnie Sen,Odest Chadwicke Jenkins
発行日 2024-10-16 19:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク