PEACE: Prompt Engineering Automation for CLIPSeg Enhancement in Aerial Robotics

要約

産業用ロボットから宇宙ロボットまで、安全な着陸は飛行運用にとって不可欠な要素です。
人工知能への関心が高まる中、私たちは学習ベースの安全着陸アプローチに注目しています。
この論文は、オープンボキャブラリーの画像セグメンテーションの機能を活用することで、リアクティブ UAV システムに焦点を当てた以前の研究 DOVESEI を拡張したものです。
オープンボキャブラリーベースのモデルを使用したプロンプトベースの安全なランディングゾーンのセグメンテーションは、単なるアイデアではなく、DOVESEI の研究によって実現可能であることが証明されました。
ただし、プロンプトの単語のヒューリスティックな選択は、環境の変化を考慮に入れることができず、観察された環境が指定されたプロンプトによって適切に表現されていない場合に有害な結果が発生する可能性があるため、信頼できる解決策ではありません。
したがって、PEACE (CLIPSeg Enhancement のためのプロンプト エンジニアリング オートメーション) を導入し、DOVESEI がプロンプトの生成とエンジニアリングを自動化し、データ配信の変化に適応できるようにします。
当社のシステムは、単眼カメラと画像セグメンテーションのみを使用して、高度 20 メートルまでの衝突を回避しながら安全な着陸操作を実行できます。
DOVESEI のダイナミック フォーカスを利用して、ビデオ ストリームのフレーム間の地形セグメンテーションの突然の変動を回避します。
PEACE は、CLIP および CLIPSeg で使用される標準プロンプトと比較して、航空画像のプロンプト生成とエンジニアリングにおいて有望な改善を示しています。
DOVESEI と PEACE を組み合わせることで、当社のシステムは DOVESEI のみを使用した場合と比較して、安全な着陸ゾーンの選択の成功率を 58.62% 向上させることができました。
すべてのソース コードはオープンソースであり、オンラインで入手できます。

要約(オリジナル)

From industrial to space robotics, safe landing is an essential component for flight operations. With the growing interest in artificial intelligence, we direct our attention to learning based safe landing approaches. This paper extends our previous work, DOVESEI, which focused on a reactive UAV system by harnessing the capabilities of open vocabulary image segmentation. Prompt-based safe landing zone segmentation using an open vocabulary based model is no more just an idea, but proven to be feasible by the work of DOVESEI. However, a heuristic selection of words for prompt is not a reliable solution since it cannot take the changing environment into consideration and detrimental consequences can occur if the observed environment is not well represented by the given prompt. Therefore, we introduce PEACE (Prompt Engineering Automation for CLIPSeg Enhancement), powering DOVESEI to automate the prompt generation and engineering to adapt to data distribution shifts. Our system is capable of performing safe landing operations with collision avoidance at altitudes as low as 20 meters using only monocular cameras and image segmentation. We take advantage of DOVESEI’s dynamic focus to circumvent abrupt fluctuations in the terrain segmentation between frames in a video stream. PEACE shows promising improvements in prompt generation and engineering for aerial images compared to the standard prompt used for CLIP and CLIPSeg. Combining DOVESEI and PEACE, our system was able improve successful safe landing zone selections by 58.62% compared to using only DOVESEI. All the source code is open source and available online.

arxiv情報

著者 Haechan Mark Bong,Rongge Zhang,Ricardo de Azambuja,Giovanni Beltrame
発行日 2023-12-08 17:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク