Vision-Language Foundation Models as Effective Robot Imitators


ビジョン言語基盤モデルの最近の進歩により、マルチモーダル データを理解し、ロボット操作を含む複雑なビジョン言語タスクを解決できる能力が示されました。
私たちは、ロボットデータを簡単に微調整するだけで、既存のビジョン言語モデル (VLM) を活用する簡単な方法を模索しています。
この目的を達成するために、私たちは、オープンソース VLM である OpenFlamingo に基づいて構築された、RoboFlamingo と呼ばれる、シンプルで斬新なビジョン言語操作フレームワークを導き出しました。
これまでの研究とは異なり、RoboFlamingo は、単一ステップの視覚言語理解のために事前トレーニングされた VLM を利用し、明示的なポリシーヘッドを使用して逐次履歴情報をモデル化し、言語条件付き操作データセットのみでの模倣学習によってわずかに微調整されます。
このような分解により、RoboFlamingo にはオープンループ制御と低パフォーマンスのプラットフォームでの展開のための柔軟性が提供されます。
テストされたベンチマークで最先端のパフォーマンスを大幅に上回っており、RoboFlamingo が VLM をロボット制御に適応させるための効果的で競争力のある代替手段となり得ることを示しています。
私たちの広範な実験結果は、操作タスクにおけるさまざまな事前トレーニング済み VLM の動作に関するいくつかの興味深い結論も明らかにしています。
私たちは、RoboFlamingo が費用対効果が高く使いやすいロボット操作ソリューションとなる可能性を秘めており、誰もが独自のロボット ポリシーを微調整できるようになると信じています。


Recent progress in vision language foundation models has shown their ability to understand multimodal data and resolve complicated vision language tasks, including robotics manipulation. We seek a straightforward way of making use of existing vision-language models (VLMs) with simple fine-tuning on robotics data. To this end, we derive a simple and novel vision-language manipulation framework, dubbed RoboFlamingo, built upon the open-source VLMs, OpenFlamingo. Unlike prior works, RoboFlamingo utilizes pre-trained VLMs for single-step vision-language comprehension, models sequential history information with an explicit policy head, and is slightly fine-tuned by imitation learning only on language-conditioned manipulation datasets. Such a decomposition provides RoboFlamingo the flexibility for open-loop control and deployment on low-performance platforms. By exceeding the state-of-the-art performance with a large margin on the tested benchmark, we show RoboFlamingo can be an effective and competitive alternative to adapt VLMs to robot control. Our extensive experimental results also reveal several interesting conclusions regarding the behavior of different pre-trained VLMs on manipulation tasks. We believe RoboFlamingo has the potential to be a cost-effective and easy-to-use solution for robotics manipulation, empowering everyone with the ability to fine-tune their own robotics policy.


著者 Xinghang Li,Minghuan Liu,Hanbo Zhang,Cunjun Yu,Jie Xu,Hongtao Wu,Chilam Cheang,Ya Jing,Weinan Zhang,Huaping Liu,Hang Li,Tao Kong
発行日 2023-11-02 16:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク