要約
都市全体のマルチカメラ ネットワークからのスナップショットに基づく軌道復元により、都市モビリティのセンシングと私道の最適化が促進されます。
このようなビジョンベースのスキームに特化した最先端のソリューションには、通常、事前定義されたルールや教師なしの反復フィードバックが組み込まれており、パイプライン全体をトレーニングするためのオープンソース データセットの不足や、
視覚入力からのノイズ。
このジレンマに応えて、この論文では、道路ネットワーク カメラによって記録されたスナップショットから車両の軌道を再構成する初の学習ベースのモデルである VisionTraj を提案します。
これと組み合わせて、2 つの合理的な視覚軌跡データセットを詳しく説明します。これらは、対応する視覚スナップショットとともに広範な軌跡データを生成し、教師付き視覚軌跡相互作用の抽出を可能にします。
データ作成に続いて、既製のマルチモーダル車両クラスタリングの結果に基づいて、まず軌道回復問題を生成タスクとして再定式化し、自己回帰バックボーンとして標準トランスフォーマーを導入します。
次に、スナップショットの時空間依存関係に制限のあるクラスタリング ノイズ (誤検知など) を特定するために、GCN ベースのソフトノイズ除去モジュールが、細粒度および粗粒度の Re-ID クラスターに基づいて実行されます。
さらに、トラックレットから抽出された強力なセマンティック情報を利用して、軌道回復中の車両の進入および退出動作に関する詳細な洞察を提供します。
ノイズ除去コンポーネントとトラックレット コンポーネントは、ベースラインを向上させるためのプラグ アンド プレイ モジュールとしても機能します。
2 つの手作りデータセットの実験結果は、提案された VisionTraj が次善のモデルに対して最大 +11.5% の改善を達成することを示しています。
要約(オリジナル)
Trajectory recovery based on the snapshots from the city-wide multi-camera network facilitates urban mobility sensing and driveway optimization. The state-of-the-art solutions devoted to such a vision-based scheme typically incorporate predefined rules or unsupervised iterative feedback, struggling with multi-fold challenges such as lack of open-source datasets for training the whole pipeline, and the vulnerability to the noises from visual inputs. In response to the dilemma, this paper proposes VisionTraj, the first learning-based model that reconstructs vehicle trajectories from snapshots recorded by road network cameras. Coupled with it, we elaborate on two rational vision-trajectory datasets, which produce extensive trajectory data along with corresponding visual snapshots, enabling supervised vision-trajectory interplay extraction. Following the data creation, based on the results from the off-the-shelf multi-modal vehicle clustering, we first re-formulate the trajectory recovery problem as a generative task and introduce the canonical Transformer as the autoregressive backbone. Then, to identify clustering noises (e.g., false positives) with the bound on the snapshots’ spatiotemporal dependencies, a GCN-based soft-denoising module is conducted based on the fine- and coarse-grained Re-ID clusters. Additionally, we harness strong semantic information extracted from the tracklet to provide detailed insights into the vehicle’s entry and exit actions during trajectory recovery. The denoising and tracklet components can also act as plug-and-play modules to boost baselines. Experimental results on the two hand-crafted datasets show that the proposed VisionTraj achieves a maximum +11.5% improvement against the sub-best model.
arxiv情報
| 著者 | Zhishuai Li,Ziyue Li,Xiaoru Hu,Guoqing Du,Yunhao Nie,Feng Zhu,Lei Bai,Rui Zhao |
| 発行日 | 2023-12-11 14:52:43+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google