要約
雑然とした混雑した人間中心の環境でダイナミックな人々を追跡することは、オクルージョン、ポーズの変形、照明の変動などのクラス内変動が存在するため、ロボット工学の困難な問題です。
この論文では、条件付き潜在拡散モデルである潜在拡散トラック (LDTrack) を使用し、クラス内変動の下で複数の動的な人々を追跡するための新しい深層学習アーキテクチャを紹介します。
条件付き潜在拡散モデルを独自に利用して時間的な人物の埋め込みをキャプチャすることにより、私たちのアーキテクチャは時間の経過に伴う人々の外観の変化に適応できます。
私たちは、高次元の潜在空間内で拡散プロセスを実行できるようにする潜在特徴エンコーダー ネットワークを組み込み、人物の外観、動作、位置、アイデンティティ、コンテキスト情報などの豊富な特徴の抽出と時空間的洗練を可能にしました。
広範な実験により、クラス内変動の下で乱雑で混雑した人間中心の環境において、他の最先端の追跡方法よりも LDTrack が有効であることが実証されています。
つまり、結果は、追跡精度と統計的有意性のある追跡精度の両方において、私たちの方法が既存の深層学習ロボット人物追跡方法よりも優れていることを示しています。
要約(オリジナル)
Tracking of dynamic people in cluttered and crowded human-centered environments is a challenging robotics problem due to the presence of intraclass variations including occlusions, pose deformations, and lighting variations. This paper introduces a novel deep learning architecture, using conditional latent diffusion models, the Latent Diffusion Track (LDTrack), for tracking multiple dynamic people under intraclass variations. By uniquely utilizing conditional latent diffusion models to capture temporal person embeddings, our architecture can adapt to appearance changes of people over time. We incorporated a latent feature encoder network which enables the diffusion process to operate within a high-dimensional latent space to allow for the extraction and spatial-temporal refinement of such rich features as person appearance, motion, location, identity, and contextual information. Extensive experiments demonstrate the effectiveness of LDTrack over other state-of-the-art tracking methods in cluttered and crowded human-centered environments under intraclass variations. Namely, the results show our method outperforms existing deep learning robotic people tracking methods in both tracking accuracy and tracking precision with statistical significance.
arxiv情報
著者 | Angus Fung,Beno Benhabib,Goldie Nejat |
発行日 | 2024-02-26 22:46:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google