Layout Sequence Prediction From Noisy Mobile Modality

要約

軌道予測は、自動運転やロボット工学などの用途で歩行者の動きを理解する上で重要な役割を果たします。
現在の軌道予測モデルは、視覚モダリティからの長く、完全で、正確に観察されたシーケンスに依存しています。
それにもかかわらず、現実世界の状況では、環境要因によりカメラが遮られたり、物体が見落とされたり、物体が見えなくなったりすることが多く、その結果、軌道が不完全になったり、ノイズが多くなったりします。
これらの制限を克服するために、私たちは LTrajDiff を提案します。LTrajDiff は、遮蔽されたオブジェクトや視界の外にあるオブジェクトを、完全に可視の軌道を持つオブジェクトと同等に重要なものとして扱う新しいアプローチです。
LTrajDiff は携帯電話からのセンサー データを利用して視界外の制約を克服しますが、モダリティの融合、ノイズの多いデータ、空間レイアウトやオブジェクト サイズ情報の欠如などの新たな課題が生じます。
当社では、ノイズ除去拡散モデルを採用し、RMS、シャム マスク エンコーディング モジュール、MFM を組み込んだ粗密拡散戦略を使用して、ノイズの多いモバイル データから正確なレイアウト シーケンスを予測します。
私たちのモデルは、単一の参照タイムスタンプまたは著しく妨害されたシーケンスからオブジェクトのサイズと投影ステータスを暗黙的に推測することにより、レイアウト シーケンスを予測します。
ランダムに妨害された実験と非常に短い入力実験で SOTA 結果を達成したこのモデルは、ノイズの多いモバイル データを活用する有効性を示しています。
要約すると、私たちのアプローチは、現実世界の設定でレイアウトシーケンスと軌道予測モデルが直面する課題に対する有望な解決策を提供し、携帯電話からのセンサーデータを利用して歩行者境界ボックスの軌道を正確に予測する道を切り開きます。
私たちの知る限り、これは、視覚とノイズの多いモバイルモダリティを組み合わせることによって、重度に障害物があり、非常に短いレイアウトシーケンスに対処した最初の研究であり、レイアウトシーケンスの軌道予測の分野における先駆的な研究となっています。

要約(オリジナル)

Trajectory prediction plays a vital role in understanding pedestrian movement for applications such as autonomous driving and robotics. Current trajectory prediction models depend on long, complete, and accurately observed sequences from visual modalities. Nevertheless, real-world situations often involve obstructed cameras, missed objects, or objects out of sight due to environmental factors, leading to incomplete or noisy trajectories. To overcome these limitations, we propose LTrajDiff, a novel approach that treats objects obstructed or out of sight as equally important as those with fully visible trajectories. LTrajDiff utilizes sensor data from mobile phones to surmount out-of-sight constraints, albeit introducing new challenges such as modality fusion, noisy data, and the absence of spatial layout and object size information. We employ a denoising diffusion model to predict precise layout sequences from noisy mobile data using a coarse-to-fine diffusion strategy, incorporating the RMS, Siamese Masked Encoding Module, and MFM. Our model predicts layout sequences by implicitly inferring object size and projection status from a single reference timestamp or significantly obstructed sequences. Achieving SOTA results in randomly obstructed experiments and extremely short input experiments, our model illustrates the effectiveness of leveraging noisy mobile data. In summary, our approach offers a promising solution to the challenges faced by layout sequence and trajectory prediction models in real-world settings, paving the way for utilizing sensor data from mobile phones to accurately predict pedestrian bounding box trajectories. To the best of our knowledge, this is the first work that addresses severely obstructed and extremely short layout sequences by combining vision with noisy mobile modality, making it the pioneering work in the field of layout sequence trajectory prediction.

arxiv情報

著者 Haichao Zhang,Yi Xu,Hongsheng Lu,Takayuki Shimizu,Yun Fu
発行日 2023-10-09 20:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.RO パーマリンク