要約
透明な物体の認識は、家庭や実験室でのロボット操作などのアプリケーションにとって重要なスキルです。
既存の方法では、RGB-D またはステレオ入力を利用して、奥行きやポーズの推定などの認識タスクのサブセットを処理します。
ただし、透明なオブジェクトの認識は未解決の問題のままです。
このホワイト ペーパーでは、RGB-D センサーからの信頼性の低い深度マップを放棄し、ステレオ ベースの方法を拡張します。
私たちが提案する方法である MVTrans は、深度推定、セグメンテーション、ポーズ推定など、複数の知覚機能を備えたエンドツーエンドのマルチビュー アーキテクチャです。
さらに、新しい手続き型の写実的なデータセット生成パイプラインを確立し、大規模な透明オブジェクト検出データセット Syn-TODD を作成します。これは、RGB-D、ステレオ、およびマルチビュー RGB の 3 つのモダリティすべてを備えたネットワークのトレーニングに適しています。
プロジェクトサイト:https://ac-rad.github.io/MVTrans/
要約(オリジナル)
Transparent object perception is a crucial skill for applications such as robot manipulation in household and laboratory settings. Existing methods utilize RGB-D or stereo inputs to handle a subset of perception tasks including depth and pose estimation. However, transparent object perception remains to be an open problem. In this paper, we forgo the unreliable depth map from RGB-D sensors and extend the stereo based method. Our proposed method, MVTrans, is an end-to-end multi-view architecture with multiple perception capabilities, including depth estimation, segmentation, and pose estimation. Additionally, we establish a novel procedural photo-realistic dataset generation pipeline and create a large-scale transparent object detection dataset, Syn-TODD, which is suitable for training networks with all three modalities, RGB-D, stereo and multi-view RGB. Project Site: https://ac-rad.github.io/MVTrans/
arxiv情報
著者 | Yi Ru Wang,Yuchi Zhao,Haoping Xu,Saggi Eppel,Alan Aspuru-Guzik,Florian Shkurti,Animesh Garg |
発行日 | 2023-02-22 22:45:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google