要約
この論文では、マルチクラスのラック内試験管再配置問題に対処するために、タスクレベルの強化学習と動作計画を組み合わせたフレームワークを提案します。
タスク レベルでは、フレームワークは強化学習を使用して、ロボットの動作の詳細を無視しながら一連のスワップ アクションを推測します。
動作レベルでは、フレームワークはタスク レベルのエージェントによって推論されたスワッピング アクション シーケンスを受け入れ、詳細なロボットのピック アンド プレース動作を計画します。
タスクおよび動作レベルの計画は、ラック スロットごとに維持される条件セットを利用して閉ループを形成します。これにより、フレームワークは再計画を実行し、低レベルの障害が存在する場合でも効果的に解決策を見つけることができます。
特に強化学習の場合、このフレームワークは Dueling Double Deep Q Network (D3QN) を備えた分散ディープ Q ラーニング構造を利用して最適に近いポリシーを取得し、A${}^\star$ ベースの後処理技術を使用してポリシーを増幅します。
収集されたトレーニング データ。
D3QN と分散学習により、トレーニングの効率が向上します。
後処理は、未完了のアクション シーケンスを完了し、冗長性を削除するのに役立ち、トレーニング データがより効果的になります。
私たちは、提案されたフレームワークのパフォーマンスを理解するために、シミュレーションと現実世界の研究の両方を実行します。
結果は、RL と後処理のパフォーマンスを検証し、閉ループの組み合わせにより堅牢性が向上することを示しています。
このフレームワークには、さまざまな感覚フィードバックを組み込む準備ができています。
実際の研究でも、その組み込みが実証されています。
要約(オリジナル)
A combined task-level reinforcement learning and motion planning framework is proposed in this paper to address a multi-class in-rack test tube rearrangement problem. At the task level, the framework uses reinforcement learning to infer a sequence of swap actions while ignoring robotic motion details. At the motion level, the framework accepts the swapping action sequences inferred by task-level agents and plans the detailed robotic pick-and-place motion. The task and motion-level planning form a closed loop with the help of a condition set maintained for each rack slot, which allows the framework to perform replanning and effectively find solutions in the presence of low-level failures. Particularly for reinforcement learning, the framework leverages a distributed deep Q-learning structure with the Dueling Double Deep Q Network (D3QN) to acquire near-optimal policies and uses an A${}^\star$-based post-processing technique to amplify the collected training data. The D3QN and distributed learning help increase training efficiency. The post-processing helps complete unfinished action sequences and remove redundancy, thus making the training data more effective. We carry out both simulations and real-world studies to understand the performance of the proposed framework. The results verify the performance of the RL and post-processing and show that the closed-loop combination improves robustness. The framework is ready to incorporate various sensory feedback. The real-world studies also demonstrated the incorporation.
arxiv情報
著者 | Hao Chen,Weiwei Wan,Masaki Matsushita,Takeyuki Kotaka,Kensuke Harada |
発行日 | 2024-01-18 07:42:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google