VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model

要約

ビジョン言語モデル (VLM) は、常識的な推論と一般化の能力により、最近ロボット工学に採用されています。
既存の研究では、VLM を適用して、自然言語命令からタスクおよび動作計画を生成し、ロボット学習用のトレーニング データをシミュレートしました。
この研究では、VLM を使用して人間のデモンストレーション ビデオを解釈し、ロボットのタスク計画を生成することを検討します。
私たちのメソッドは、キーフレームの選択、視覚認識、および VLM 推論をパイプラインに統合します。
これを SeeDo と名付けたのは、VLM が人間のデモンストレーションを「見て」、対応する計画をロボットに「実行」させるための説明ができるからです。
私たちのアプローチを検証するために、3 つの多様なカテゴリでピック アンド プレース タスクをデモンストレーションする一連の長期にわたるヒューマン ビデオを収集し、最先端のビデオを含むいくつかのベースラインに対して SeeDo を包括的にベンチマークするための一連の指標を設計しました。
入力 VLM。
実験では、SeeDo の優れたパフォーマンスが実証されました。
さらに、生成されたタスク プランをシミュレーション環境と実際のロボット アームの両方に展開しました。

要約(オリジナル)

Vision Language Models (VLMs) have recently been adopted in robotics for their capability in common sense reasoning and generalizability. Existing work has applied VLMs to generate task and motion planning from natural language instructions and simulate training data for robot learning. In this work, we explore using VLM to interpret human demonstration videos and generate robot task planning. Our method integrates keyframe selection, visual perception, and VLM reasoning into a pipeline. We named it SeeDo because it enables the VLM to ”see” human demonstrations and explain the corresponding plans to the robot for it to ”do”. To validate our approach, we collected a set of long-horizon human videos demonstrating pick-and-place tasks in three diverse categories and designed a set of metrics to comprehensively benchmark SeeDo against several baselines, including state-of-the-art video-input VLMs. The experiments demonstrate SeeDo’s superior performance. We further deployed the generated task plans in both a simulation environment and on a real robot arm.

arxiv情報

著者 Beichen Wang,Juexiao Zhang,Shuwen Dong,Irving Fang,Chen Feng
発行日 2024-10-11 13:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク