Talk Through It: End User Directed Manipulation Learning

要約

ジェネラリストのロボット エージェントをトレーニングすることは、さまざまな環境で膨大な範囲のタスクを実行する必要があるため、非常に困難な作業です。
代わりに、エンドユーザーの好みに基づいてロボットを選択的にトレーニングすることを提案します。
エンドユーザーがロボットに下位レベルのアクション (例: 「左に移動」) を実行するように指示できる工場モデルがあると、エンドユーザーが言語を使用してデモンストレーションを収集し、ニーズに合わせた高レベルのタスクに合わせてホーム モデルをトレーニングできることを示します。
(例:「一番上の引き出しを開けてブロックを中に入れてください」)。
RLBench 環境を使用して、ロボット操作タスクに関するこの階層型ロボット学習フレームワークを実証します。
私たちの方法では、ベースライン方法と比較してスキルの成功率が 16% 向上しました。
さらなる実験では、エンドユーザーの関与を回避することを目的として、タスクを一連の下位レベルの命令に自動的に分割するための大規模ビジョン言語モデル (VLM) である Bard の使用を検討します。
VLM はタスクを最低レベルに分割することはできませんが、高レベルのタスクを中レベルのスキルに分割することで良好な結果を達成します。
補足ビデオと追加の結果が talk-through-it.github.io にあります。

要約(オリジナル)

Training generalist robot agents is an immensely difficult feat due to the requirement to perform a huge range of tasks in many different environments. We propose selectively training robots based on end-user preferences instead. Given a factory model that lets an end user instruct a robot to perform lower-level actions (e.g. ‘Move left’), we show that end users can collect demonstrations using language to train their home model for higher-level tasks specific to their needs (e.g. ‘Open the top drawer and put the block inside’). We demonstrate this hierarchical robot learning framework on robot manipulation tasks using RLBench environments. Our method results in a 16% improvement in skill success rates compared to a baseline method. In further experiments, we explore the use of the large vision-language model (VLM), Bard, to automatically break down tasks into sequences of lower-level instructions, aiming to bypass end-user involvement. The VLM is unable to break tasks down to our lowest level, but does achieve good results breaking high-level tasks into mid-level skills. We have a supplemental video and additional results at talk-through-it.github.io.

arxiv情報

著者 Carl Winge,Adam Imdieke,Bahaa Aldeeb,Dongyeop Kang,Karthik Desingh
発行日 2024-02-19 20:19:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク