TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models

要約

拡散モデルは、画像分類や物体検出などの知覚タスクのためのデータ生成において注目されている。しかし、ビデオ知覚の分野において重要な点である、高品質なトラッキングシーケンスを生成する可能性については、十分に研究されていない。このギャップに対処するために、我々はトラックレットから連続ビデオシーケンスを生成するように設計された新しいアーキテクチャであるTrackDiffusionを提案する。TrackDiffusionは、従来のlayout-to-image(L2I)生成や、バウンディングボックスのような静的な画像要素に焦点を当てたコピーペースト合成から大きく逸脱し、画像拡散モデルに動的で連続的な追跡軌跡を包含させることで、複雑な動きのニュアンスを捉え、ビデオフレーム間のインスタンスの一貫性を確保する。初めて、生成されたビデオシーケンスを多オブジェクト追跡(MOT)システムのトレーニングに利用することで、追跡性能の大幅な向上につながることを実証する。実験結果は、我々のモデルが、生成されたビデオシーケンスにおけるインスタンスの一貫性を著しく向上させ、知覚指標の改善につながることを示している。我々のアプローチは、YTVISデータセットにおいて、TrackAPで8.7、TrackAP$_{50}$で11.8の改善を達成し、MOTタスクやそれ以降のビデオデータ生成の基準を再定義する可能性を強調する。

要約(オリジナル)

Diffusion models have gained prominence in generating data for perception tasks such as image classification and object detection. However, the potential in generating high-quality tracking sequences, a crucial aspect in the field of video perception, has not been fully investigated. To address this gap, we propose TrackDiffusion, a novel architecture designed to generate continuous video sequences from the tracklets. TrackDiffusion represents a significant departure from the traditional layout-to-image (L2I) generation and copy-paste synthesis focusing on static image elements like bounding boxes by empowering image diffusion models to encompass dynamic and continuous tracking trajectories, thereby capturing complex motion nuances and ensuring instance consistency among video frames. For the first time, we demonstrate that the generated video sequences can be utilized for training multi-object tracking (MOT) systems, leading to significant improvement in tracker performance. Experimental results show that our model significantly enhances instance consistency in generated video sequences, leading to improved perceptual metrics. Our approach achieves an improvement of 8.7 in TrackAP and 11.8 in TrackAP$_{50}$ on the YTVIS dataset, underscoring its potential to redefine the standards of video data generation for MOT tasks and beyond.

arxiv情報

著者 Pengxiang Li,Zhili Liu,Kai Chen,Lanqing Hong,Yunzhi Zhuge,Dit-Yan Yeung,Huchuan Lu,Xu Jia
発行日 2023-12-01 15:24:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク