要約
ロボット学習の進歩により、ロボットはさまざまなタスクのスキルを生み出すことができました。
しかし、ロボット学習は通常、サンプルでは非効率的であり、さまざまな行動を示すデータソースから学ぶのに苦労しており、自然に制約を取り入れていません。
これらのプロパティは、テーブルテニスを再生するなど、高速でアジャイルなタスクにとって重要です。
デモンストレーションから学ぶための最新の手法は、サンプルの効率とスケールを多様なデータに改善しますが、アジャイルタスクではほとんど評価されません。
強化学習の場合、優れたパフォーマンスを達成するには、高忠実度のシミュレータでのトレーニングが必要です。
これらの制限を克服するために、オフライン、制約誘導、多様なアジャイル行動を表現する新しい拡散モデリングアプローチを開発します。
私たちのアプローチの鍵は、ロボットアームの順方向運動学と拡散モデルの両方を介して勾配を計算してサンプリングプロセスを指示する運動学的制約勾配ガイダンス(KCGG)手法です。
KCGGは、制約に違反するコストを最小限に抑え、同時にトレーニングデータのサンプリングされた軌跡を維持します。
2つの挑戦的なドメインのKCGGを評価することにより、時間型のロボットタスクに対するアプローチの有効性を実証します:シミュレートされたエアホッケーとリアルテーブルテニス。
シミュレートされたエアホッケーでは、ブロックレートが25.4%増加しましたが、卓球学習ベースラインと比較して成功率が17.3%増加したことがわかりました。
要約(オリジナル)
Advances in robot learning have enabled robots to generate skills for a variety of tasks. Yet, robot learning is typically sample inefficient, struggles to learn from data sources exhibiting varied behaviors, and does not naturally incorporate constraints. These properties are critical for fast, agile tasks such as playing table tennis. Modern techniques for learning from demonstration improve sample efficiency and scale to diverse data, but are rarely evaluated on agile tasks. In the case of reinforcement learning, achieving good performance requires training on high-fidelity simulators. To overcome these limitations, we develop a novel diffusion modeling approach that is offline, constraint-guided, and expressive of diverse agile behaviors. The key to our approach is a kinematic constraint gradient guidance (KCGG) technique that computes gradients through both the forward kinematics of the robot arm and the diffusion model to direct the sampling process. KCGG minimizes the cost of violating constraints while simultaneously keeping the sampled trajectory in-distribution of the training data. We demonstrate the effectiveness of our approach for time-critical robotic tasks by evaluating KCGG in two challenging domains: simulated air hockey and real table tennis. In simulated air hockey, we achieved a 25.4% increase in block rate, while in table tennis, we saw a 17.3% increase in success rate compared to imitation learning baselines.
arxiv情報
著者 | Kin Man Lee,Sean Ye,Qingyu Xiao,Zixuan Wu,Zulfiqar Zaidi,David B. D’Ambrosio,Pannag R. Sanketi,Matthew Gombolay |
発行日 | 2025-04-17 16:22:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google