MMRDN: Consistent Representation for Multi-View Manipulation Relationship Detection in Object-Stacked Scenes

要約

タイトル:オブジェクト積み重ねシーンにおける多視点操作関係検出のための一貫した表現MMRDN
要約:

– MMRDNは、ロボットがオブジェクトを正しい順序で掴むためのガイドラインである操作関係検出(MRD)を実行するために開発された、新しい多視点融合フレームワークである。
– 以前の作業では、事前定義された視点から収集されたデータで訓練された深層ニューラルネットワークによって操作関係が推定されていたが、不整合環境では視覚的な不一致が生じる問題があった。
– 多視点データは、空間的により包括的な情報を提供するが、多視点MRDの課題は、ドメインシフトである。
– この論文では、2Dおよび3Dの多視点データで訓練された、MMRDNという名前の新しい多視点MRDネットワークを提案している。
– 異なる視点からの2Dデータを共通の隠れ空間に射影し、一貫した表現を学習するために一連のVon-Mises-Fisher分布で埋め込みを適合させることで、2Dデータを処理する。
– 3Dデータ内の位置情報を活用し、各オブジェクトペアの点群からK個の最大垂直隣人(KMVN)ポイントを選択し、これら2つのオブジェクトの相対位置をエンコードする。
– 最後に、多視点2Dおよび3Dデータの特徴を連結して、オブジェクト間のペアワイズ関係を予測する。
– REGRADデータセットにおける実験結果は、MMRDNが多視点MRDタスクにおいて最先端の手法を上回っていることを示している。
– 結果は、シンセティックデータで訓練されたモデルが実世界のシナリオに転送できることも示している。

要約(オリジナル)

Manipulation relationship detection (MRD) aims to guide the robot to grasp objects in the right order, which is important to ensure the safety and reliability of grasping in object stacked scenes. Previous works infer manipulation relationship by deep neural network trained with data collected from a predefined view, which has limitation in visual dislocation in unstructured environments. Multi-view data provide more comprehensive information in space, while a challenge of multi-view MRD is domain shift. In this paper, we propose a novel multi-view fusion framework, namely multi-view MRD network (MMRDN), which is trained by 2D and 3D multi-view data. We project the 2D data from different views into a common hidden space and fit the embeddings with a set of Von-Mises-Fisher distributions to learn the consistent representations. Besides, taking advantage of position information within the 3D data, we select a set of $K$ Maximum Vertical Neighbors (KMVN) points from the point cloud of each object pair, which encodes the relative position of these two objects. Finally, the features of multi-view 2D and 3D data are concatenated to predict the pairwise relationship of objects. Experimental results on the challenging REGRAD dataset show that MMRDN outperforms the state-of-the-art methods in multi-view MRD tasks. The results also demonstrate that our model trained by synthetic data is capable to transfer to real-world scenarios.

arxiv情報

著者 Han Wang,Jiayuan Zhang,Lipeng Wan,Xingyu Chen,Xuguang Lan,Nanning Zheng
発行日 2023-04-25 05:55:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク