Visual Spatial Attention and Proprioceptive Data-Driven Reinforcement Learning for Robust Peg-in-Hole Task Under Variable Conditions

要約

アンカー ボルトの挿入は、建設現場でコンクリートに穴をあけるために行われる穴にペグインする作業です。
このタスクを自動化する取り組みが行われてきましたが、照明や穴の表面状態が変化すること、またセットアップとタスクの実行時間を短くする必要があるため、自動化は困難になっています。
この研究では、困難な照明や穴の表面状態に対して堅牢な、このタスク用の視覚および固有受容データ駆動型ロボット制御モデルを導入します。
このモデルは、ロボットを制御するためにエンドツーエンドで共同トレーニングされる空間アテンション ポイント ネットワーク (SAP) と深層強化学習 (DRL) ポリシーで構成されています。
モデルは、トレーニング時間を短縮し、モデルを物理世界に転送する際の現実のギャップを最小限に抑えるように設計されたサンプル効率の高いフレームワークを使用して、オフラインでトレーニングされます。
16 の異なる初期位置から開始し、3 つの異なる照明条件 (2 つは誤解を招く影がある) の下で、12 の未知の穴でタスクを実行する産業用ロボットによる評価を通じて、SAP が困難な照明でも画像の関連する注意点を生成できることを実証しました。
条件。
また、提案されたモデルにより、さまざまなベースラインよりも高い成功率と短いタスク完了時間でタスクを実行できることも示します。
提案されたモデルは厳しい照明、初期位置、穴条件でも高い有効性を示し、オフライン トレーニング フレームワークの高いサンプル効率と短いトレーニング時間により、このアプローチは建設に簡単に適用できます。

要約(オリジナル)

Anchor-bolt insertion is a peg-in-hole task performed in the construction field for holes in concrete. Efforts have been made to automate this task, but the variable lighting and hole surface conditions, as well as the requirements for short setup and task execution time make the automation challenging. In this study, we introduce a vision and proprioceptive data-driven robot control model for this task that is robust to challenging lighting and hole surface conditions. This model consists of a spatial attention point network (SAP) and a deep reinforcement learning (DRL) policy that are trained jointly end-to-end to control the robot. The model is trained in an offline manner, with a sample-efficient framework designed to reduce training time and minimize the reality gap when transferring the model to the physical world. Through evaluations with an industrial robot performing the task in 12 unknown holes, starting from 16 different initial positions, and under three different lighting conditions (two with misleading shadows), we demonstrate that SAP can generate relevant attention points of the image even in challenging lighting conditions. We also show that the proposed model enables task execution with higher success rate and shorter task completion time than various baselines. Due to the proposed model’s high effectiveness even in severe lighting, initial positions, and hole conditions, and the offline training framework’s high sample-efficiency and short training time, this approach can be easily applied to construction.

arxiv情報

著者 André Yuji Yasutomi,Hideyuki Ichiwara,Hiroshi Ito,Hiroki Mori,Tetsuya Ogata
発行日 2023-12-27 06:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク