要約
この論文では、混雑した空間での自己中心的なカメラ着用者(自我者)の軌道を予測する問題に対処します。
実世界を歩き回るさまざまなカメラ着用者のデータから学習した軌道予測能力を転送して、視覚障害者のナビゲーションを支援したり、移動ロボットに人間のナビゲーション動作を浸透させたりして、人間とロボットの相互作用を向上させることができます。
この目的のために、カメラを身に着けて混雑した空間をナビゲートする人々の実際の軌道と、抽出された豊富なコンテキストデータを含む、新しいエゴセントリックな人間の軌道予測データセットが構築されました。
カメラ着用者の軌跡、つまり、過去の軌跡、近くの人の過去の軌跡、シーンのセマンティクスやシーンの深さなどの環境を予測するために、3つの異なるモダリティを抽出して利用します。
複数のモダリティを融合する新しいカスケードクロスアテンションメカニズムと統合されたトランスフォーマーベースのエンコーダーデコーダーニューラルネットワークモデルは、カメラ着用者の将来の軌道を予測するように設計されています。
広範な実験が行われ、その結果は、私たちのモデルが自己中心的な人間の軌道予測において最先端の方法よりも優れていることを示しています。
要約(オリジナル)
In this paper, we address the problem of forecasting the trajectory of an egocentric camera wearer (ego-person) in crowded spaces. The trajectory forecasting ability learned from the data of different camera wearers walking around in the real world can be transferred to assist visually impaired people in navigation, as well as to instill human navigation behaviours in mobile robots, enabling better human-robot interactions. To this end, a novel egocentric human trajectory forecasting dataset was constructed, containing real trajectories of people navigating in crowded spaces wearing a camera, as well as extracted rich contextual data. We extract and utilize three different modalities to forecast the trajectory of the camera wearer, i.e., his/her past trajectory, the past trajectories of nearby people, and the environment such as the scene semantics or the depth of the scene. A Transformer-based encoder-decoder neural network model, integrated with a novel cascaded cross-attention mechanism that fuses multiple modalities, has been designed to predict the future trajectory of the camera wearer. Extensive experiments have been conducted, with results showing that our model outperforms the state-of-the-art methods in egocentric human trajectory forecasting.
arxiv情報
著者 | Jianing Qiu,Lipeng Chen,Xiao Gu,Frank P. -W. Lo,Ya-Yen Tsai,Jiankai Sun,Jiaqi Liu,Benny Lo |
発行日 | 2022-07-07 12:31:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google