CLIPSwarm: Generating Drone Shows from Text Prompts with Vision-Language Models

要約

このペーパーでは、自然言語に基づいて群ドローン編隊のモデリングを自動化するために設計された新しいアルゴリズムである CLIPSwarm を紹介します。
このアルゴリズムは、提供された単語を強化して、提供された単語に最も一致する形式を見つけるための反復アプローチへの入力として機能するテキスト プロンプトを作成することから始まります。
このアルゴリズムは、「探索」と「搾取」に異なるステップを使用して、テキストの説明と一致するようにロボットのフォーメーションを繰り返し調整します。
私たちのフレームワークは現在、輪郭形状に限定された単純な形成ターゲットで評価されています。
フォーメーションはアルファ形状の輪郭によって視覚的に表現され、入力された単語に対して最も代表的な色が自動的に検出されます。
説明とフォーメーションの視覚的表現の間の類似性を測定するために、CLIP [1] を使用し、テキストと画像をベクトルにエンコードし、それらの類似性を評価します。
その後、アルゴリズムは、利用可能なドローンの所定の制約内で、単語をより効果的に視覚的に表現するためにフォーメーションを再配置します。
その後、制御アクションがドローンに割り当てられ、ロボットの動作と衝突のない移動が保証されます。
実験結果は、自然言語記述からロボットのフォーメーションを正確にモデル化するシステムの有効性を実証しています。
このアルゴリズムの多用途性は、さまざまな形状のフォトリアリスティックなシミュレーションでのドローン ショーの実行を通じて実証されます。
結果を視覚的に参照するには、補足ビデオを参照してください。

要約(オリジナル)

This paper introduces CLIPSwarm, a new algorithm designed to automate the modeling of swarm drone formations based on natural language. The algorithm begins by enriching a provided word, to compose a text prompt that serves as input to an iterative approach to find the formation that best matches the provided word. The algorithm iteratively refines formations of robots to align with the textual description, employing different steps for ‘exploration’ and ‘exploitation’. Our framework is currently evaluated on simple formation targets, limited to contour shapes. A formation is visually represented through alpha-shape contours and the most representative color is automatically found for the input word. To measure the similarity between the description and the visual representation of the formation, we use CLIP [1], encoding text and images into vectors and assessing their similarity. Subsequently, the algorithm rearranges the formation to visually represent the word more effectively, within the given constraints of available drones. Control actions are then assigned to the drones, ensuring robotic behavior and collision-free movement. Experimental results demonstrate the system’s efficacy in accurately modeling robot formations from natural language descriptions. The algorithm’s versatility is showcased through the execution of drone shows in photorealistic simulation with varying shapes. We refer the reader to the supplementary video for a visual reference of the results.

arxiv情報

著者 Pablo Pueyo,Eduardo Montijano,Ana C. Murillo,Mac Schwager
発行日 2024-03-20 10:17:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク