BehAV: Behavioral Rule Guided Autonomy Using VLMs for Robot Navigation in Outdoor Scenes

要約

我々は、人間の指示と視覚言語モデル(VLM)を活用した、屋外シーンにおける自律的なロボットナビゲーションのための新しいアプローチであるBehAVを発表する。本手法では、Large Language Model (LLM)を用いて人間の指示を解釈し、その指示をナビゲーションガイドラインと行動ガイドラインに分類する。ナビゲーション・ガイドラインは、方向指示(例:「前方に進む」)と関連するランドマーク(例:「青い窓のある建物」)から構成され、行動ガイドラインは、規制行動(例:「踏みとどまる」)と対応するオブジェクト(例:「舗道」)を包含する。我々は、ロボットナビゲーションのために、RGB画像からランドマーク位置を推定するために、ゼロショットのシーン理解能力を持つVLMを用いる。さらに、行動ルールを行動コストマップに基礎づけるためにVLMを利用する新しいシーン表現を導入する。このコストマップは、シーン内の行動オブジェクトの存在を符号化し、その制御動作に基づいてコストを割り当てる。行動コストマップは、ナビゲーションのためにLiDARベースの占有マップと統合される。指示された行動を守りながら屋外シーンをナビゲートするために、我々は無制約モデル予測制御(MPC)ベースのプランナーを提示し、目印に到達することと行動ガイドラインに従うことの両方を優先させる。実世界の様々なシナリオにおいて、四足歩行ロボットを用いてBehAVの性能を評価した結果、フレシェ距離で測定した人間の遠隔操作による行動との整合性が22.49%向上し、最先端の手法と比較して40%高いナビゲーション成功率を達成した。

要約(オリジナル)

We present BehAV, a novel approach for autonomous robot navigation in outdoor scenes guided by human instructions and leveraging Vision Language Models (VLMs). Our method interprets human commands using a Large Language Model (LLM) and categorizes the instructions into navigation and behavioral guidelines. Navigation guidelines consist of directional commands (e.g., ‘move forward until’) and associated landmarks (e.g., ‘the building with blue windows’), while behavioral guidelines encompass regulatory actions (e.g., ‘stay on’) and their corresponding objects (e.g., ‘pavements’). We use VLMs for their zero-shot scene understanding capabilities to estimate landmark locations from RGB images for robot navigation. Further, we introduce a novel scene representation that utilizes VLMs to ground behavioral rules into a behavioral cost map. This cost map encodes the presence of behavioral objects within the scene and assigns costs based on their regulatory actions. The behavioral cost map is integrated with a LiDAR-based occupancy map for navigation. To navigate outdoor scenes while adhering to the instructed behaviors, we present an unconstrained Model Predictive Control (MPC)-based planner that prioritizes both reaching landmarks and following behavioral guidelines. We evaluate the performance of BehAV on a quadruped robot across diverse real-world scenarios, demonstrating a 22.49% improvement in alignment with human-teleoperated actions, as measured by Frechet distance, and achieving a 40% higher navigation success rate compared to state-of-the-art methods.

arxiv情報

著者 Kasun Weerakoon,Mohamed Elnoor,Gershom Seneviratne,Vignesh Rajagopal,Senthil Hariharan Arul,Jing Liang,Mohamed Khalid M Jaffar,Dinesh Manocha
発行日 2024-10-02 19:50:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク