Human Demonstrations are Generalizable Knowledge for Robots

要約

人間のデモンストレーションから学ぶことは、インテリジェントなロボット システムを設計するための新たなトレンドです。
しかし、従来の方法では通常、ビデオを命令とみなし、単にロボットが反復するアクションシーケンスに分割するだけであったため、多様なタスクやオブジェクトインスタンスへの一般化に障害が生じていました。
本稿では、人間によるデモンストレーションビデオを単なる指示ではなく、ロボットの知識の源として考えるという、別の視点を提案します。
この観点と、大規模言語モデル (LLM) が示す優れた理解力と一般化能力に動機付けられて、階層構造を持つ一般化可能な知識を抽出する方法である DigKnow を提案します。
具体的には、DigKnow は人間のデモンストレーション ビデオ フレームを観察知識に変換することから始まります。
この知識を分析して人間の行動知識を抽出し、さらにタスクやオブジェクトのインスタンスを含むパターン知識に抽出することで、階層構造を持った一般化可能な知識を獲得します。
さまざまなタスクまたはオブジェクト インスタンスを含む設定では、DigKnow は現在のタスクおよびオブジェクト インスタンスに関連するナレッジを取得します。
その後、LLM ベースのプランナーが取得した知識に基づいて計画を実行し、ポリシーは指定されたタスクを達成するために計画に沿ってアクションを実行します。
取得した知識を活用して、計画と実行の結果を検証および修正し、成功率を大幅に向上させます。
さまざまなタスクやシーンにわたる実験結果は、人間のデモンストレーションから得られた知識を使用して現実世界のロボットがタスクを達成することを容易にするこのアプローチの有効性を実証しています。

要約(オリジナル)

Learning from human demonstrations is an emerging trend for designing intelligent robotic systems. However, previous methods typically regard videos as instructions, simply dividing them into action sequences for robotic repetition, which poses obstacles to generalization to diverse tasks or object instances. In this paper, we propose a different perspective, considering human demonstration videos not as mere instructions, but as a source of knowledge for robots. Motivated by this perspective and the remarkable comprehension and generalization capabilities exhibited by large language models (LLMs), we propose DigKnow, a method that DIstills Generalizable KNOWledge with a hierarchical structure. Specifically, DigKnow begins by converting human demonstration video frames into observation knowledge. This knowledge is then subjected to analysis to extract human action knowledge and further distilled into pattern knowledge compassing task and object instances, resulting in the acquisition of generalizable knowledge with a hierarchical structure. In settings with different tasks or object instances, DigKnow retrieves relevant knowledge for the current task and object instances. Subsequently, the LLM-based planner conducts planning based on the retrieved knowledge, and the policy executes actions in line with the plan to achieve the designated task. Utilizing the retrieved knowledge, we validate and rectify planning and execution outcomes, resulting in a substantial enhancement of the success rate. Experimental results across a range of tasks and scenes demonstrate the effectiveness of this approach in facilitating real-world robots to accomplish tasks with the knowledge derived from human demonstrations.

arxiv情報

著者 Guangyan Chen,Te Cui,Tianxing Zhou,Zicai Peng,Mengxiao Hu,Meiling Wang,Yi Yang,Yufeng Yue
発行日 2023-12-05 01:35:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク