要約
私たちは、人間中心の環境でロボットの動きを計算するための新しい視覚言語モデル (VLM) ベースのナビゲーション アプローチである VLM-Social-Nav を提案します。
私たちの目標は、人間の期待に社会的に準拠したロボットの行動についてリアルタイムの意思決定を行うことです。
認識モデルを利用して重要な社会的エンティティを検出し、VLM に社会的に準拠したロボットの動作のためのガイダンスを生成するように促します。
VLM-Social-Nav は、基盤となるプランナーによって生成される社会的に適切かつ効果的なロボットのアクションを保証するコスト条件を計算する VLM ベースのスコアリング モジュールを使用します。
私たちの全体的なアプローチは、大規模なトレーニング データセットへの依存を減らし、意思決定における適応性を高めます。
実際には、人間が共有する環境において、社会に準拠したナビゲーションが向上します。
Turtlebot ロボットを使用して、4 つの異なる現実世界のソーシャル ナビゲーション シナリオでシステムをデモンストレーションし、評価します。
4 つのソーシャル ナビゲーション シナリオでは、平均成功率が少なくとも 27.38% 向上し、平均衝突率が 19.05% 向上したことがわかります。
当社のユーザー調査スコアは、VLM-Social-Nav が最も社会に準拠したナビゲーション動作を生成することを示しています。
要約(オリジナル)
We propose VLM-Social-Nav, a novel Vision-Language Model (VLM) based navigation approach to compute a robot’s motion in human-centered environments. Our goal is to make real-time decisions on robot actions that are socially compliant with human expectations. We utilize a perception model to detect important social entities and prompt a VLM to generate guidance for socially compliant robot behavior. VLM-Social-Nav uses a VLM-based scoring module that computes a cost term that ensures socially appropriate and effective robot actions generated by the underlying planner. Our overall approach reduces reliance on large training datasets and enhances adaptability in decision-making. In practice, it results in improved socially compliant navigation in human-shared environments. We demonstrate and evaluate our system in four different real-world social navigation scenarios with a Turtlebot robot. We observe at least 27.38% improvement in the average success rate and 19.05% improvement in the average collision rate in the four social navigation scenarios. Our user study score shows that VLM-Social-Nav generates the most socially compliant navigation behavior.
arxiv情報
著者 | Daeun Song,Jing Liang,Amirreza Payandeh,Amir Hossain Raj,Xuesu Xiao,Dinesh Manocha |
発行日 | 2024-11-25 21:05:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google