Reinforcement Learning Based Pushing and Grasping Objects from Ungraspable Poses

要約

テーブルの上に水平に置かれた本やその他の大きな平らな物体など、物体がつかめないポーズにあるときに物体をつかむことは困難な作業です。
人間の操作に着想を得て、オブジェクトをテーブルの端に押し付け、吊り下げ部分からつかむことで、この問題に対処します。
この論文では、モデルフリーの深層強化学習フレームワークを開発して、押すアクションとつかむアクションを相乗的にします。
まず、Variational Autoencoder を事前トレーニングして、入力シナリオ イメージの高次元の特徴を抽出します。
Actor-Critic の共通の報酬層と共有層を備えた 1 つの近接ポリシー最適化アルゴリズムを使用して、プッシュと把握の両方のアクションを高いデータ効率で学習します。
実験では、1 つのネットワーク ポリシーは、2 つの並列ネットワークを使用するポリシーよりも 2.5 倍速く収束できることが示されています。
さらに、目に見えないオブジェクトの実験は、私たちのポリシーが曲面を持つオブジェクトや中心から外れた不規則な形状のオブジェクトの挑戦的なケースに一般化できることを示しています。
最後に、CycleGAN をドメイン適応に使用することで微調整なしでポリシーを実際のロボットに移すことができ、プッシュ トゥ ウォールのベースラインよりも優れています。

要約(オリジナル)

Grasping an object when it is in an ungraspable pose is a challenging task, such as books or other large flat objects placed horizontally on a table. Inspired by human manipulation, we address this problem by pushing the object to the edge of the table and then grasping it from the hanging part. In this paper, we develop a model-free Deep Reinforcement Learning framework to synergize pushing and grasping actions. We first pre-train a Variational Autoencoder to extract high-dimensional features of input scenario images. One Proximal Policy Optimization algorithm with the common reward and sharing layers of Actor-Critic is employed to learn both pushing and grasping actions with high data efficiency. Experiments show that our one network policy can converge 2.5 times faster than the policy using two parallel networks. Moreover, the experiments on unseen objects show that our policy can generalize to the challenging case of objects with curved surfaces and off-center irregularly shaped objects. Lastly, our policy can be transferred to a real robot without fine-tuning by using CycleGAN for domain adaption and outperforms the push-to-wall baseline.

arxiv情報

著者 Hao Zhang,Hongzhuo Liang,Lin Cong,Jianzhi Lyu,Long Zeng,Pingfa Feng,Jianwei Zhang
発行日 2023-02-26 14:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク