BEAC: Imitating Complex Exploration and Task-oriented Behaviors for Invisible Object Nonprehensile Manipulation

要約

Imitation Learning(IL)を適用することは、埋もれた岩の掘削などの部分的な観測を備えた目に見えないオブジェクトの非緩和操作タスクに挑戦します。
デモンストレーターは、そのような複雑なアクション決定を行い、オブジェクトとタスク指向のアクションを見つけて、隠された状態を推定しなが​​らタスクを完了し、おそらく一貫性のないアクションデモンストレーションと高い認知負荷問題を引き起こす必要があります。
これらの問題については、人間の認知科学における研究は、デモ隊のための事前に設計された単純な探索規則の使用を促進することで、行動の矛盾と高い認知負荷の問題を軽減する可能性があることを示唆しています。
したがって、このような探索ルールを使用してデモンストレーションから模倣学習を実行する場合、デモ隊のタスク指向の動作だけでなく、部分的な観察下でのモードスイッチング動作(探索的またはタスク指向の動作)を正確に模倣することが重要です。
上記の考慮事項に基づいて、このペーパーでは、事前に設計された探索ポリシーと過去の歴史に基づいて推定された信念状態に基づいて訓練されたタスク指向のアクションポリシーとの間の切り替えポリシー構造を持つ信念探査アクションクローニング(BEAC)と呼ばれる新しい模倣学習フレームワークを提案します。
シミュレーションおよび実際のロボット実験では、提案された方法が、ユーザー調査で示されたデモンストレーションの認知負荷を減らしながら、最高のタスクパフォ​​ーマンス、より高いモード、およびアクション予測の精度を達成したことを確認しました。

要約(オリジナル)

Applying imitation learning (IL) is challenging to nonprehensile manipulation tasks of invisible objects with partial observations, such as excavating buried rocks. The demonstrator must make such complex action decisions as exploring to find the object and task-oriented actions to complete the task while estimating its hidden state, perhaps causing inconsistent action demonstration and high cognitive load problems. For these problems, work in human cognitive science suggests that promoting the use of pre-designed, simple exploration rules for the demonstrator may alleviate the problems of action inconsistency and high cognitive load. Therefore, when performing imitation learning from demonstrations using such exploration rules, it is important to accurately imitate not only the demonstrator’s task-oriented behavior but also his/her mode-switching behavior (exploratory or task-oriented behavior) under partial observation. Based on the above considerations, this paper proposes a novel imitation learning framework called Belief Exploration-Action Cloning (BEAC), which has a switching policy structure between a pre-designed exploration policy and a task-oriented action policy trained on the estimated belief states based on past history. In simulation and real robot experiments, we confirmed that our proposed method achieved the best task performance, higher mode and action prediction accuracies, while reducing the cognitive load in the demonstration indicated by a user study.

arxiv情報

著者 Hirotaka Tahara,Takamitsu Matsubara
発行日 2025-03-21 02:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク