Evaluating Robustness of Visual Representations for Object Assembly Task Requiring Spatio-Geometrical Reasoning

要約

このペーパーでは主に、オブジェクト アセンブリ タスクのコンテキストにおける視覚的表現の堅牢性の評価とベンチマークに焦点を当てます。
具体的には、一般にペグインホールタスクと呼ばれる、幾何学的押し出しと侵入によるオブジェクトの位置合わせと挿入を調査します。
組み立てを成功させるために、SE(3) 空間内のペグと穴の形状を検出して方向付けるために必要な精度は、重大な課題を引き起こします。
これに対処するために、視覚エンコーダとして視覚事前学習モデルを利用する視覚運動ポリシー学習の一般的なフレームワークを採用します。
私たちの研究では、このフレームワークを双腕操作セットアップ、特に把握のバリエーションに適用した場合の堅牢性を調査します。
私たちの定量的分析は、既存の事前トレーニング済みモデルが、このタスクに必要な重要な視覚的特徴を捕捉できないことを示しています。
ただし、ゼロからトレーニングされたビジュアル エンコーダーは、凍結された事前トレーニングされたモデルよりも常に優れたパフォーマンスを発揮します。
さらに、ポリシー学習を大幅に改善するローテーション表現と関連する損失関数について説明します。
幾何学的推論と空間推論の両方を必要とする複雑な組み立てタスクの堅牢性の向上に特に焦点を当てて、視覚運動ポリシー学習の進歩を評価するように設計された新しいタスクシナリオを提示します。
ビデオ、追加の実験、データセット、コードは https://bit.ly/geometric-peg-in-hole で入手できます。

要約(オリジナル)

This paper primarily focuses on evaluating and benchmarking the robustness of visual representations in the context of object assembly tasks. Specifically, it investigates the alignment and insertion of objects with geometrical extrusions and intrusions, commonly referred to as a peg-in-hole task. The accuracy required to detect and orient the peg and the hole geometry in SE(3) space for successful assembly poses significant challenges. Addressing this, we employ a general framework in visuomotor policy learning that utilizes visual pretraining models as vision encoders. Our study investigates the robustness of this framework when applied to a dual-arm manipulation setup, specifically to the grasp variations. Our quantitative analysis shows that existing pretrained models fail to capture the essential visual features necessary for this task. However, a visual encoder trained from scratch consistently outperforms the frozen pretrained models. Moreover, we discuss rotation representations and associated loss functions that substantially improve policy learning. We present a novel task scenario designed to evaluate the progress in visuomotor policy learning, with a specific focus on improving the robustness of intricate assembly tasks that require both geometrical and spatial reasoning. Videos, additional experiments, dataset, and code are available at https://bit.ly/geometric-peg-in-hole .

arxiv情報

著者 Chahyon Ku,Carl Winge,Ryan Diaz,Wentao Yuan,Karthik Desingh
発行日 2023-10-22 21:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク