要約
大学のキャンパス、レストラン、食料品店、病院などの混雑した公共スペースでのソーシャルロボットナビゲーションは、ますます重要な研究分野です。
この目標を達成するためのコア戦略の1つは、通常、逆補強学習(IRL)を介して、報酬機能を学ぶことで、動きを支配する心理的要因の上に人間の意図を理解することです。
IRLの大幅な進歩にもかかわらず、複数のエージェントの報酬機能を同時に学習している密集していない歩行者の群衆における同時に、これらのシナリオ\ Textit {例えば}の通過、交差点、揺れ、織りなどで発生する厳密に結合した社会的相互作用の性質のために、扱いにくいままである。
構造化されていない歩行者の群衆。
私たちのアプローチの鍵は、単純だが効果的な数学的なトリックであり、精度をわずかに削減するために扱いやすさを達成するいわゆる競合性の合理性トレードオフトリックと名付けます。
ETH、UCY、SCAND、JRDB、およびSpeedwayと呼ばれる新しいデータセットを含むいくつかのデータセットで、古典的なシングルエージェントMaxent IRLに対するアプローチと、最先端の軌道予測方法を比較し、密集した複雑なエージェントの相互作用に焦点を当てた大学のキャンパスで忙しい交差点で収集されました。
私たちの重要な調査結果は、密なスピードウェイデータセットでは、私たちのアプローチは、シングルエージェントIRLよりも2倍以上の改善を伴うトップ7のベースラインで1位にランクされており、ETH/UCYなどのスパースのあるデータセットの最先端の大型トランスベースのエンコーダデコーダーモデルと競合しています(トップ7ベースラインの中で3番目のランク)。
要約(オリジナル)
Social robot navigation in crowded public spaces such as university campuses, restaurants, grocery stores, and hospitals, is an increasingly important area of research. One of the core strategies for achieving this goal is to understand humans’ intent–underlying psychological factors that govern their motion–by learning their reward functions, typically via inverse reinforcement learning (IRL). Despite significant progress in IRL, learning reward functions of multiple agents simultaneously in dense unstructured pedestrian crowds has remained intractable due to the nature of the tightly coupled social interactions that occur in these scenarios \textit{e.g.} passing, intersections, swerving, weaving, etc. In this paper, we present a new multi-agent maximum entropy inverse reinforcement learning algorithm for real world unstructured pedestrian crowds. Key to our approach is a simple, but effective, mathematical trick which we name the so-called tractability-rationality trade-off trick that achieves tractability at the cost of a slight reduction in accuracy. We compare our approach to the classical single-agent MaxEnt IRL as well as state-of-the-art trajectory prediction methods on several datasets including the ETH, UCY, SCAND, JRDB, and a new dataset, called Speedway, collected at a busy intersection on a University campus focusing on dense, complex agent interactions. Our key findings show that, on the dense Speedway dataset, our approach ranks 1st among top 7 baselines with >2X improvement over single-agent IRL, and is competitive with state-of-the-art large transformer-based encoder-decoder models on sparser datasets such as ETH/UCY (ranks 3rd among top 7 baselines).
arxiv情報
著者 | Rohan Chandra,Haresh Karnan,Negar Mehr,Peter Stone,Joydeep Biswas |
発行日 | 2025-03-26 21:19:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google