要約
高解像度表現は、ビジョンベースのロボット把持問題にとって重要です。
既存の作業では、一般に、サブネットワークを介して入力画像を低解像度表現にエンコードしてから、高解像度表現を復元します。
これにより、空間情報が失われ、複数のタイプのオブジェクトが考慮される場合、またはオブジェクトがカメラから遠く離れている場合、デコーダによって導入されるエラーがより深刻になります。
これらの問題に対処するために、ロボットの知覚タスクのための CNN の設計パラダイムを再検討します。
シリアル スタックされた畳み込みレイヤーとは対照的に、パラレル ブランチを使用すると、ロボットの視覚的把握タスクのより強力な設計になることを示します。
特に、ニューラル ネットワーク設計のガイドラインは、さまざまな操作シナリオでの課題に対応する高解像度表現や軽量設計など、ロボットの知覚タスクに提供されます。
次に、常に高解像度の表現を維持し、解像度間で情報を繰り返し交換する並列分岐構造である、HRG-Net と呼ばれる新しい把握視覚アーキテクチャを開発します。
広範な実験により、これら 2 つの設計が視覚ベースの把握の精度を効果的に向上させ、ネットワーク トレーニングを加速できることが検証されています。
Youtube: https://youtu.be/Jhlsp-xzHFY で、実際の物理環境での一連の比較実験を紹介しています。
要約(オリジナル)
High-resolution representations are important for vision-based robotic grasping problems. Existing works generally encode the input images into low-resolution representations via sub-networks and then recover high-resolution representations. This will lose spatial information, and errors introduced by the decoder will be more serious when multiple types of objects are considered or objects are far away from the camera. To address these issues, we revisit the design paradigm of CNN for robotic perception tasks. We demonstrate that using parallel branches as opposed to serial stacked convolutional layers will be a more powerful design for robotic visual grasping tasks. In particular, guidelines of neural network design are provided for robotic perception tasks, e.g., high-resolution representation and lightweight design, which respond to the challenges in different manipulation scenarios. We then develop a novel grasping visual architecture referred to as HRG-Net, a parallel-branch structure that always maintains a high-resolution representation and repeatedly exchanges information across resolutions. Extensive experiments validate that these two designs can effectively enhance the accuracy of visual-based grasping and accelerate network training. We show a series of comparative experiments in real physical environments at Youtube: https://youtu.be/Jhlsp-xzHFY.
arxiv情報
著者 | Zhangli Zhou,Shaochen Wang,Ziyang Chen,Mingyu Cai,Zhen Kan |
発行日 | 2022-09-15 17:02:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google