要約
急速に進化する視覚言語ナビゲーション (VLN) の分野では、堅牢な安全メカニズムを確保することが依然として未解決の課題です。
コントロール バリア機能 (CBF) は、最適な制御問題を解決することで安全性を保証する効率的なツールです。
この研究では、VLN 設定で遠隔操作されるドローンのケースを検討し、RGB-D センサーを通じて得られる自己中心的な観測を使用して新しいシーン認識型 CBF を定式化することで安全機能を追加します。
ベースラインとして、対照言語画像事前学習 (CLIP) モデルを使用して、ユーザーが指定した (自然言語で) ランドマークについてクエリを実行する視覚言語理解モジュールを実装します。
YOLO (You Only Look Once) オブジェクト検出器を使用して、切り取られたランドマークを検証するために CLIP モデルがクエリされ、下流のナビゲーションがトリガーされます。
ベースラインのナビゲーションの安全性を向上させるために、移動物体を追跡するためにドローンの深度マップをトリミングして、シーンを意識した CBF 評価をオンザフライで実行する ASMA (適応安全マージン アルゴリズム) を提案します。
ASMA は、現場から潜在的な危険な観測を特定することで、予測不可能な環境条件へのリアルタイムの適応を可能にし、VLN を搭載したドローンの動作に最適な安全限界を確保します。
ガゼボ環境の Parrot bebop2 クアローター上でロボット オペレーティング システム (ROS) ミドルウェアを使用することで、ASMA は、ベースラインの CBF なし VLN と比較して、軌道長のわずかな増加である 5.4% ~ 8.2% を伴いながら、成功率が 59.4% ~ 61.8% 増加しました。
危険な状況からの回復。
要約(オリジナル)
In the rapidly evolving field of vision-language navigation (VLN), ensuring robust safety mechanisms remains an open challenge. Control barrier functions (CBFs) are efficient tools which guarantee safety by solving an optimal control problem. In this work, we consider the case of a teleoperated drone in a VLN setting, and add safety features by formulating a novel scene-aware CBF using ego-centric observations obtained through an RGB-D sensor. As a baseline, we implement a vision-language understanding module which uses the contrastive language image pretraining (CLIP) model to query about a user-specified (in natural language) landmark. Using the YOLO (You Only Look Once) object detector, the CLIP model is queried for verifying the cropped landmark, triggering downstream navigation. To improve navigation safety of the baseline, we propose ASMA — an Adaptive Safety Margin Algorithm — that crops the drone’s depth map for tracking moving object(s) to perform scene-aware CBF evaluation on-the-fly. By identifying potential risky observations from the scene, ASMA enables real-time adaptation to unpredictable environmental conditions, ensuring optimal safety bounds on a VLN-powered drone actions. Using the robot operating system (ROS) middleware on a parrot bebop2 quadrotor in the gazebo environment, ASMA offers 59.4% – 61.8% increase in success rates with insignificant 5.4% – 8.2% increases in trajectory lengths compared to the baseline CBF-less VLN while recovering from unsafe situations.
arxiv情報
著者 | Sourav Sanyal,Kaushik Roy |
発行日 | 2024-09-16 13:44:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google