GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

要約

人間の行動の観察を統合してロボット操作を容易にすることで、汎用ビジョン言語モデル GPT-4V(ision) を強化するパイプラインを紹介します。
このシステムは、人間がタスクを実行するビデオを分析し、アフォーダンスの洞察を組み込んだ実行可能なロボット プログラムを作成します。
計算は、GPT-4V でビデオを分析して環境と行動の詳細をテキストに変換することから始まり、その後 GPT-4 を活用したタスク プランナーが続きます。
次の分析では、ビジョン システムがタスク プランを使用してビデオを再分析します。
物体名は、オープンボキャブラリーの物体検出器を使用して根拠付けされ、手と物体の関係に焦点を当てることで、握ったり放したりする瞬間の検出に役立ちます。
この時空間接地により、視覚システムはアフォーダンス データ (例: 把握タイプ、ウェイポイント、身体姿勢など) をさらに収集できるようになります。
さまざまなシナリオにわたる実験により、人間のデモンストレーションから実際のロボットの操作をゼロショットで実現するこの方法の有効性が実証されています。
GPT-4V/GPT-4 のプロンプトは、このプロジェクト ページで入手できます: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

要約(オリジナル)

We introduce a pipeline that enhances a general-purpose Vision Language Model, GPT-4V(ision), by integrating observations of human actions to facilitate robotic manipulation. This system analyzes videos of humans performing tasks and creates executable robot programs that incorporate affordance insights. The computation starts by analyzing the videos with GPT-4V to convert environmental and action details into text, followed by a GPT-4-empowered task planner. In the following analyses, vision systems reanalyze the video with the task plan. Object names are grounded using an open-vocabulary object detector, while focus on the hand-object relation helps to detect the moment of grasping and releasing. This spatiotemporal grounding allows the vision systems to further gather affordance data (e.g., grasp type, way points, and body postures). Experiments across various scenarios demonstrate this method’s efficacy in achieving real robots’ operations from human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are available at this project page: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

arxiv情報

著者 Naoki Wake,Atsushi Kanehira,Kazuhiro Sasabuchi,Jun Takamatsu,Katsushi Ikeuchi
発行日 2023-11-20 18:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク