要約
人間がシナリオのどこに移動するか、通常のパスと速度、そして停止する場所を明確に理解することは、都市部のモビリティ研究や人口の多い環境内のロボットナビゲーションタスクなど、さまざまな用途にとって非常に重要です。
この記事では、この情報を提供するための視覚変圧器(VITS)に基づいたニューラルアーキテクチャを提案します。
このソリューションは、畳み込みニューラルネットワーク(CNNS)よりも、間違いなく空間相関をより効果的にキャプチャできます。
論文では、方法論と提案された神経アーキテクチャを説明し、標準的なデータセットで実験の結果を示します。
提案されたVITアーキテクチャは、CNNに基づく方法と比較してメトリックを改善することを示します。
要約(オリジナル)
A clear understanding of where humans move in a scenario, their usual paths and speeds, and where they stop, is very important for different applications, such as mobility studies in urban areas or robot navigation tasks within human-populated environments. We propose in this article, a neural architecture based on Vision Transformers (ViTs) to provide this information. This solution can arguably capture spatial correlations more effectively than Convolutional Neural Networks (CNNs). In the paper, we describe the methodology and proposed neural architecture and show the experiments’ results with a standard dataset. We show that the proposed ViT architecture improves the metrics compared to a method based on a CNN.
arxiv情報
著者 | Placido Falqueto,Alberto Sanfeliu,Luigi Palopoli,Daniele Fontanelli |
発行日 | 2025-01-30 18:12:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google