Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation

要約

タイトル:RGB-Dセマンティックセグメンテーションに基づく服のつかみと展開

要約:

– ロボティクス支援のドレッシングにおいて、服のつかみと展開は重要なステップである。
– 多くの既存の方法では、衣類の深度画像を使用して、合致するつかみポイントを認識するディープラーニングベースのモデルをトレーニングすることが多い。
– これらの方法は、物理エンジンを使用して深度画像を合成することで、実際のラベル付けされたデータの収集コストを減らすことが多い。しかし、合成画像と実際の画像の自然なドメインの差異は、これらの手法の性能低下を招くことがある。
– さらに、つかみポイントが衣服そのものによって隠されるシナリオでは、これらの手法がしばしば苦戦することがある。
– これらの課題に対処するために、本論文では、セマンティックセグメンテーションのためのバイディレクショナルフラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。
– 本提案では、深度画像だけでなく、豊富なカラー特徴を持つRGB画像も入力として使用し、フラクタルジオメトリに基づくグローバル複雑特徴を考慮するFractal Cross Fusion (FCF)モジュールによってRGBと深度データを融合する。
– 実際のデータ収集のコストを減らすために、カラーや幾何学的変換を同時に処理し、ラベル対応を維持する方法を提案する。
– 最後に、衣服の平坦さの測定に基づくセグメンテーション領域からつかみポイントを選択する戦略を追加することで、セマンティックセグメンテーションの観点から衣服のつかみと展開のパイプラインを提示する。
– BiFCNetを公開データセットNYUDv2で評価し、現在の最先端のモデルと同等の性能を達成する。
– さらに、Baxterロボットにモデルをデプロイし、グラビングとアンフォールディングの実験を実施して、84%の成功率を達成した。

要約(オリジナル)

Clothes grasping and unfolding is a core step in robotic-assisted dressing. Most existing works leverage depth images of clothes to train a deep learning-based model to recognize suitable grasping points. These methods often utilize physics engines to synthesize depth images to reduce the cost of real labeled data collection. However, the natural domain gap between synthetic and real images often leads to poor performance of these methods on real data. Furthermore, these approaches often struggle in scenarios where grasping points are occluded by the clothing item itself. To address the above challenges, we propose a novel Bi-directional Fractal Cross Fusion Network (BiFCNet) for semantic segmentation, enabling recognition of graspable regions in order to provide more possibilities for grasping. Instead of using depth images only, we also utilize RGB images with rich color features as input to our network in which the Fractal Cross Fusion (FCF) module fuses RGB and depth data by considering global complex features based on fractal geometry. To reduce the cost of real data collection, we further propose a data augmentation method based on an adversarial strategy, in which the color and geometric transformations simultaneously process RGB and depth data while maintaining the label correspondence. Finally, we present a pipeline for clothes grasping and unfolding from the perspective of semantic segmentation, through the addition of a strategy for grasp point selection from segmentation regions based on clothing flatness measures, while taking into account the grasping direction. We evaluate our BiFCNet on the public dataset NYUDv2 and obtained comparable performance to current state-of-the-art models. We also deploy our model on a Baxter robot, running extensive grasping and unfolding experiments as part of our ablation studies, achieving an 84% success rate.

arxiv情報

著者 Xingyu Zhu,Xin Wang,Jonathan Freer,Hyung Jin Chang,Yixing Gao
発行日 2023-05-08 12:44:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク