PEACE: Prompt Engineering Automation for CLIPSeg Enhancement in Aerial Robotics

要約

安全な着陸は、産業用ロボットから宇宙用ロボットに至るまで、飛行操作に不可欠な要素である。人工知能への関心が高まる中、我々は安全着陸のための学習ベースの手法に注目している。我々の以前の研究であるDynamic Open-Vocabulary Enhanced SafE-Landing with Intelligence (DOVESEI)は、プロンプトベースのセグメンテーションを用いて、オープンボキャブラリーモデルによる安全な着陸ゾーンの特定が可能であることを実証した。しかし、プロンプトの単語をヒューリスティックに選択することは、環境の変化に対応できないため信頼性に欠け、観測された環境が選択されたプロンプトによって正確に表現されていない場合、有害な結果を招く可能性がある。この問題に対処するため、DOVESEIの拡張機能であるPEACE(Prompt Engineering Automation for CLIPSeg Enhancement)を導入し、データ分布のシフトに適応するようにプロンプトエンジニアリングを自動化します。PEACEは、単眼カメラと画像分割のみを使用して安全な着陸を実行できます。PEACEは、CLIPおよびCLIPSegで使用される標準的なプロンプトと比較して、航空画像のプロンプト生成およびエンジニアリングにおいて大幅な改善を示しています。DOVESEIとPEACEを組み合わせることで、我々のシステムは、シミュレーションと屋内実験の両方で、安全な着陸ゾーンの選択の成功率を少なくとも30%向上させました。

要約(オリジナル)

Safe landing is an essential aspect of flight operations in fields ranging from industrial to space robotics. With the growing interest in artificial intelligence, we focus on learning-based methods for safe landing. Our previous work, Dynamic Open-Vocabulary Enhanced SafE-Landing with Intelligence (DOVESEI), demonstrated the feasibility of using prompt-based segmentation for identifying safe landing zones with open vocabulary models. However, relying on a heuristic selection of words for prompts is not reliable, as it cannot adapt to changing environments, potentially leading to harmful outcomes if the observed environment is not accurately represented by the chosen prompt. To address this issue, we introduce PEACE (Prompt Engineering Automation for CLIPSeg Enhancement), an enhancement to DOVESEI that automates prompt engineering to adapt to shifts in data distribution. PEACE can perform safe landings using only monocular cameras and image segmentation. PEACE shows significant improvements in prompt generation and engineering for aerial images compared to standard prompts used for CLIP and CLIPSeg. By combining DOVESEI and PEACE, our system improved the success rate of safe landing zone selection by at least 30\% in both simulations and indoor experiments.

arxiv情報

著者 Haechan Mark Bong,Rongge Zhang,Ricardo de Azambuja,Antoine Robillard,Giovanni Beltrame
発行日 2024-09-02 20:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク