GSON: A Group-based Social Navigation Framework with Large Multimodal Model

要約

人間中心の環境におけるサービス ロボットや自動運転車の数が増加するにつれ、その要件は単に目的地までのナビゲーションを超えたものになります。
また、動的な社会的状況を考慮し、共有スペースで他者への敬意と快適さを確保する必要がありますが、これは認識と計画に大きな課題をもたらします。
この論文では、大規模マルチモーダル モデル (LMM) の視覚的推論能力を平準化することで、移動ロボットが周囲の社会的グループを認識して活用できるようにする、グループベースのソーシャル ナビゲーション フレームワーク GSON を紹介します。
知覚に関しては、視覚的プロンプト技術を適用して歩行者間の社会的関係をゼロショット抽出し、その結果を堅牢な歩行者検出および追跡パイプラインと組み合わせて、LMM の推論速度が遅いという問題を軽減します。
認識結果を考慮すると、計画システムは現在の社会構造の破壊を避けるように設計されています。
私たちは、グローバルな経路計画とローカルな動作計画の間の橋渡しとして社会構造ベースの中間レベルのプランナーを採用し、グローバルなコンテキストと事後対応を維持します。
提案された方法は、複雑な社会構造の理解と推論を伴う現実世界の移動ロボットのナビゲーション タスクで検証されます。
実験結果は、いくつかのベースラインと比較して、これらのシナリオにおけるシステムの有効性を示しています。

要約(オリジナル)

As the number of service robots and autonomous vehicles in human-centered environments grows, their requirements go beyond simply navigating to a destination. They must also take into account dynamic social contexts and ensure respect and comfort for others in shared spaces, which poses significant challenges for perception and planning. In this paper, we present a group-based social navigation framework GSON to enable mobile robots to perceive and exploit the social group of their surroundings by leveling the visual reasoning capability of the Large Multimodal Model (LMM). For perception, we apply visual prompting techniques to zero-shot extract the social relationship among pedestrians and combine the result with a robust pedestrian detection and tracking pipeline to alleviate the problem of low inference speed of the LMM. Given the perception result, the planning system is designed to avoid disrupting the current social structure. We adopt a social structure-based mid-level planner as a bridge between global path planning and local motion planning to preserve the global context and reactive response. The proposed method is validated on real-world mobile robot navigation tasks involving complex social structure understanding and reasoning. Experimental results demonstrate the effectiveness of the system in these scenarios compared with several baselines.

arxiv情報

著者 Shangyi Luo,Ji Zhu,Peng Sun,Yuhong Deng,Cunjun Yu,Anxing Xiao,Xueqian Wang
発行日 2024-09-26 17:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク