Disturbance Injection under Partial Automation: Robust Imitation Learning for Long-horizon Tasks

要約

産業用機械や高度な自動車では、長時間にわたる人間の操作の負担を軽減するために、インテリジェントなサポート システムを備えたパーシャル オートメーション (PA) が導入されています。
PA では、オペレーターは手動操作 (アクションの提供) と、自動/手動モードに切り替える操作 (モード切り替え) を実行します。
PAは手動操作の合計時間を短縮するため、これら2つのアクションとモード切り替え操作は、サンプル効率の高い模倣学習によって複製できます。
この目的のために、この論文では、新しい模倣学習フレームワークとして、部分自動化の下での妨害注入 (DIPA) を提案します。
DIPA では、モードとアクション (手動モード) は各状態のオブザーバブルであると見なされ、アクション ポリシーとモード切り替えポリシーの両方を学習するために使用されます。
上記の学習は、オペレータの行動に外乱を注入して外乱のレベルを最適化し、PA の下での共変量シフトを最小化することによってロバスト化されます。
2 つのシミュレーションと実際のロボット環境で、我々の方法の有効性を実験的に検証し、我々の方法が以前の方法よりも優れており、デモンストレーションの負担を軽減することを確認しました。

要約(オリジナル)

Partial Automation (PA) with intelligent support systems has been introduced in industrial machinery and advanced automobiles to reduce the burden of long hours of human operation. Under PA, operators perform manual operations (providing actions) and operations that switch to automatic/manual mode (mode-switching). Since PA reduces the total duration of manual operation, these two action and mode-switching operations can be replicated by imitation learning with high sample efficiency. To this end, this paper proposes Disturbance Injection under Partial Automation (DIPA) as a novel imitation learning framework. In DIPA, mode and actions (in the manual mode) are assumed to be observables in each state and are used to learn both action and mode-switching policies. The above learning is robustified by injecting disturbances into the operator’s actions to optimize the disturbance’s level for minimizing the covariate shift under PA. We experimentally validated the effectiveness of our method for long-horizon tasks in two simulations and a real robot environment and confirmed that our method outperformed the previous methods and reduced the demonstration burden.

arxiv情報

著者 Hirotaka Tahara,Hikaru Sasaki,Hanbit Oh,Edgar Anarossi,Takamitsu Matsubara
発行日 2023-03-22 08:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク