BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation

要約

リアルタイムの航空画像セグメンテーションは、無人航空機 (UAV) の環境認識において重要な役割を果たします。
UAV による航空画像のオンボードリアルタイム処理のために CLIPSeg 上に構築された最適化された視覚言語モデルである BlabberSeg を紹介します。
BlabberSeg は、プロンプト機能とモデル機能を再利用することで CLIPSeg の効率を向上させ、リアルタイムのオープン語彙の空中セグメンテーションを実現しながら計算オーバーヘッドを削減します。
私たちは、ビジュアル サーボとオープンボキャブラリー セグメンテーションを使用する Dynamic Open-Vocabulary Enhanced SafE-Landing with Intelligence (DOVESEI) フレームワークを使用して、安全な着陸シナリオで BlabberSeg を検証しました。
BlabberSeg は、オリジナルの CLIPSeg (1.81Hz) と比較して、NVIDIA Jetson Orin AGX (64GB) で 927.41% (16.78 Hz) の速度向上により、計算コストを大幅に削減し、精度の低下 (2.1%) を無視したリアルタイムの空中セグメンテーションを実現します。
CLIPSeg に対する正しくセグメント化された領域の比率として)。
BlabberSeg のソース コードはオープンであり、オンラインで入手できます。

要約(オリジナル)

Real-time aerial image segmentation plays an important role in the environmental perception of Uncrewed Aerial Vehicles (UAVs). We introduce BlabberSeg, an optimized Vision-Language Model built on CLIPSeg for on-board, real-time processing of aerial images by UAVs. BlabberSeg improves the efficiency of CLIPSeg by reusing prompt and model features, reducing computational overhead while achieving real-time open-vocabulary aerial segmentation. We validated BlabberSeg in a safe landing scenario using the Dynamic Open-Vocabulary Enhanced SafE-Landing with Intelligence (DOVESEI) framework, which uses visual servoing and open-vocabulary segmentation. BlabberSeg reduces computational costs significantly, with a speed increase of 927.41% (16.78 Hz) on a NVIDIA Jetson Orin AGX (64GB) compared with the original CLIPSeg (1.81Hz), achieving real-time aerial segmentation with negligible loss in accuracy (2.1% as the ratio of the correctly segmented area with respect to CLIPSeg). BlabberSeg’s source code is open and available online.

arxiv情報

著者 Haechan Mark Bong,Ricardo de Azambuja,Giovanni Beltrame
発行日 2024-10-16 19:18:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク