Learning a High-quality Robotic Wiping Policy Using Systematic Reward Analysis and Visual-Language Model Based Curriculum

要約

自律的なロボット拭き取りは、産業製造から医療の消毒に至るまで、さまざまな業界で重要な作業です。
ディープ補強学習(Deep RL)は有望なアルゴリズムとして浮上していますが、多くの場合、繰り返し報酬エンジニアリングに対する高い需要に苦しんでいます。
手動チューニングに依存する代わりに、まず、高品質のワイピングと高速タスクの完了の両方を必要とする品質批判的なロボットワイピングの収束を分析し、問題の収束が不十分であることを示し、問題を発生させるための新しい境界報酬の定式化を提案します。
実行可能。
次に、新しい視覚言語モデル(VLM)ベースのカリキュラムを提案することにより、学習プロセスをさらに改善します。これは、進捗を積極的に監視し、ハイパーパラメーターの調整を提案することを提案します。
結合された方法では、ベースライン定式化では学習できないさまざまな曲率、摩擦、ウェイポイントを備えた表面に望ましいワイプポリシーを見つけることができることを実証します。
このプロジェクトのデモは、https://sites.google.com/view/highqualitywipingにあります。

要約(オリジナル)

Autonomous robotic wiping is an important task in various industries, ranging from industrial manufacturing to sanitization in healthcare. Deep reinforcement learning (Deep RL) has emerged as a promising algorithm, however, it often suffers from a high demand for repetitive reward engineering. Instead of relying on manual tuning, we first analyze the convergence of quality-critical robotic wiping, which requires both high-quality wiping and fast task completion, to show the poor convergence of the problem and propose a new bounded reward formulation to make the problem feasible. Then, we further improve the learning process by proposing a novel visual-language model (VLM) based curriculum, which actively monitors the progress and suggests hyperparameter tuning. We demonstrate that the combined method can find a desirable wiping policy on surfaces with various curvatures, frictions, and waypoints, which cannot be learned with the baseline formulation. The demo of this project can be found at: https://sites.google.com/view/highqualitywiping.

arxiv情報

著者 Yihong Liu,Dongyeop Kang,Sehoon Ha
発行日 2025-02-18 07:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク