CLIP feature-based randomized control using images and text for multiple tasks and robots

要約

この研究では、複数のタスクとロボットに対してビジョン言語モデル (VLM) を活用した制御フレームワークを紹介します。
特に、VLM を使用した既存の制御方法は、トレーニング環境のさまざまなタスクやロボットで高いパフォーマンスを達成しています。
しかし、これらの方法では、訓練環境以外のタスクやロボットの制御ポリシーを学習するためのコストが高くなります。
産業用ロボットや家庭用ロボットの応用を考えると、ロボットが導入された新たな環境での学習は困難です。
この問題に対処するために、学習制御ポリシーを必要としない制御フレームワークを提案します。
私たちのフレームワークは、ビジョン言語 CLIP モデルとランダム化された制御を組み合わせています。
CLIP は、画像とテキストを特徴空間に埋め込むことで、それらの類似性を計算します。
この研究では、CLIP を使用して、カメラ画像とターゲットの状態を表すテキストの間の類似性を計算します。
私たちの方法では、ロボットは、類似性勾配の探索と増加を同時に行うランダム化コントローラーによって制御されます。
さらに、提案手法のパフォーマンスを向上させるために CLIP を微調整します。
そこで、二輪ロボットとロボットアームを用いたマルチタスクシミュレーションと実ロボット実験により、アプローチの有効性を確認する。

要約(オリジナル)

This study presents a control framework leveraging vision language models (VLMs) for multiple tasks and robots. Notably, existing control methods using VLMs have achieved high performance in various tasks and robots in the training environment. However, these methods incur high costs for learning control policies for tasks and robots other than those in the training environment. Considering the application of industrial and household robots, learning in novel environments where robots are introduced is challenging. To address this issue, we propose a control framework that does not require learning control policies. Our framework combines the vision-language CLIP model with a randomized control. CLIP computes the similarity between images and texts by embedding them in the feature space. This study employs CLIP to compute the similarity between camera images and text representing the target state. In our method, the robot is controlled by a randomized controller that simultaneously explores and increases the similarity gradients. Moreover, we fine-tune the CLIP to improve the performance of the proposed method. Consequently, we confirm the effectiveness of our approach through a multitask simulation and a real robot experiment using a two-wheeled robot and robot arm.

arxiv情報

著者 Kazuki Shibata,Hideki Deguchi,Shun Taguchi
発行日 2024-01-18 15:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク