Incorporating Task Progress Knowledge for Subgoal Generation in Robotic Manipulation through Image Edits

要約

タスクの進捗状況を理解することで、人間は何が行われたかを追跡するだけでなく、将来の目標をより適切に計画することもできます。
ロボット操作タスクの視覚的なサブ目標生成にタスクの進行状況の知識を組み込む新しいフレームワークである TaKSIE を実証します。
私たちは、潜在拡散モデルを使用してリカレント ネットワークを共同トレーニングし、ロボットの現在の観察と入力言語コマンドに基づいて次の視覚的なサブゴールを生成します。
実行時、ロボットは視覚的な進行状況表現を利用してタスクの進行状況を監視し、モデルから次の視覚的なサブゴールを適応的にサンプリングして操作ポリシーをガイドします。
シミュレーションおよび現実世界のロボット タスクでモデルをトレーニングおよび検証し、CALVIN 操作ベンチマークで最先端のパフォーマンスを達成します。
タスクの進行に関する知識を含めることで、デモンストレーション中のさまざまなロボットの初期ポーズやさまざまな移動速度に対する訓練されたポリシーの堅牢性が向上することがわかりました。
プロジェクトの Web サイトは https://live-robotics-uva.github.io/TaKSIE/ にあります。

要約(オリジナル)

Understanding the progress of a task allows humans to not only track what has been done but also to better plan for future goals. We demonstrate TaKSIE, a novel framework that incorporates task progress knowledge into visual subgoal generation for robotic manipulation tasks. We jointly train a recurrent network with a latent diffusion model to generate the next visual subgoal based on the robot’s current observation and the input language command. At execution time, the robot leverages a visual progress representation to monitor the task progress and adaptively samples the next visual subgoal from the model to guide the manipulation policy. We train and validate our model in simulated and real-world robotic tasks, achieving state-of-the-art performance on the CALVIN manipulation benchmark. We find that the inclusion of task progress knowledge can improve the robustness of trained policy for different initial robot poses or various movement speeds during demonstrations. The project website can be found at https://live-robotics-uva.github.io/TaKSIE/ .

arxiv情報

著者 Xuhui Kang,Yen-Ling Kuo
発行日 2024-12-17 22:14:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク