要約
人間の環境でのサービスロボットと自動運転車の存在が増えているため、ナビゲーションシステムは、社会的認識を組み込むために、単純な目的地のリーチを超えて進化する必要があります。
このペーパーでは、ロボットの社会的認識能力を高めるために大規模なマルチモーダルモデル(LMM)を活用する新しいグループベースのソーシャルナビゲーションフレームワークであるGSONを紹介します。
私たちのアプローチでは、歩行者間の社会的関係のゼロショット抽出を可能にするために視覚的なプロンプトを使用し、これらの結果を堅牢な歩行者の検出と追跡パイプラインと統合して、LMMSの固有の推論速度制限を克服します。
計画システムには、グローバルパス計画とローカルモーション計画の間に位置する中間レベルのプランナーが組み込まれており、予測された社会グループの混乱を避けながら、グローバルコンテキストとリアクティブな応答性の両方を効果的に維持します。
キューイング、会話、写真セッションなどの複雑なソーシャルシナリオを含む、広範な現実世界のモバイルロボットナビゲーション実験を通じてGSONを検証します。
比較結果は、私たちのシステムが、従来のナビゲーションメトリックで同等のパフォーマンスを維持しながら、社会的摂動を最小限に抑える際に既存のナビゲーションアプローチを大幅に上回ることを示しています。
要約(オリジナル)
With the increasing presence of service robots and autonomous vehicles in human environments, navigation systems need to evolve beyond simple destination reach to incorporate social awareness. This paper introduces GSON, a novel group-based social navigation framework that leverages Large Multimodal Models (LMMs) to enhance robots’ social perception capabilities. Our approach uses visual prompting to enable zero-shot extraction of social relationships among pedestrians and integrates these results with robust pedestrian detection and tracking pipelines to overcome the inherent inference speed limitations of LMMs. The planning system incorporates a mid-level planner that sits between global path planning and local motion planning, effectively preserving both global context and reactive responsiveness while avoiding disruption of the predicted social group. We validate GSON through extensive real-world mobile robot navigation experiments involving complex social scenarios such as queuing, conversations, and photo sessions. Comparative results show that our system significantly outperforms existing navigation approaches in minimizing social perturbations while maintaining comparable performance on traditional navigation metrics.
arxiv情報
著者 | Shangyi Luo,Ji Zhu,Peng Sun,Yuhong Deng,Cunjun Yu,Anxing Xiao,Xueqian Wang |
発行日 | 2025-04-08 06:45:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google