CLIPSwarm: Converting text into formations of robots

要約

自然言語記述からロボットの群れ形成を生成するアルゴリズムである CLIPSwarm を紹介します。
CLIPSwarm は入力テキストを受け取り、ロボットの位置を見つけて、指定されたテキストに対応する形状を形成します。
そのために、モンテカルロ粒子フィルターのバリエーションを実装して、一致するフォーメーションを繰り返し取得します。
反復ごとに、新しいフォーメーションのセットを生成し、指定されたテキストとのクリップ類似性を評価し、このメトリクスに従って最適なフォーメーションを選択します。
このメトリクスは、画像とテキストを共通の潜在空間内のベクトルにエンコードするようにトレーニングされた既存の基盤モデルである Clip [1] を使用して取得されます。
これらのベクトル間の比較により、指定されたテキストが形状をどの程度説明しているかが決まります。
私たちの最初の概念実証では、自然言語記述だけからロボットの群れのフォーメーションを生成するこのソリューションの可能性を示し、マルチロボット システムの分野における CLIP などの基盤モデルの新しいアプリケーションを実証します。
この最初のアプローチでは、凸包アプローチを使用してフォーメーションを作成します。
次のステップには、適切な群れ形成を取得するプロセスにおける、より堅牢で一般的な表現と最適化のステップが含まれます。

要約(オリジナル)

We present CLIPSwarm, an algorithm to generate robot swarm formations from natural language descriptions. CLIPSwarm receives an input text and finds the position of the robots to form a shape that corresponds to the given text. To do so, we implement a variation of the Montecarlo particle filter to obtain a matching formation iteratively. In every iteration, we generate a set of new formations and evaluate their Clip Similarity with the given text, selecting the best formations according to this metric. This metric is obtained using Clip, [1], an existing foundation model trained to encode images and texts into vectors within a common latent space. The comparison between these vectors determines how likely the given text describes the shapes. Our initial proof of concept shows the potential of this solution to generate robot swarm formations just from natural language descriptions and demonstrates a novel application of foundation models, such as CLIP, in the field of multi-robot systems. In this first approach, we create formations using a Convex-Hull approach. Next steps include more robust and generic representation and optimization steps in the process of obtaining a suitable swarm formation.

arxiv情報

著者 Pablo Pueyo,Eduardo Montijano,Ana C. Murillo,Mac Schwager
発行日 2023-11-18 11:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク