要約
ビデオからの軌跡アノテーションのアノテーション効率を向上させることで、データを大量に消費する次世代の追跡アルゴリズムが大規模なデータセットで成功できる可能性があります。
このタスクの重要性にもかかわらず、追跡データセットに包括的に効率的にラベルを付ける方法を検討している研究は現在ほとんどありません。
この作業では、人間の介入を最小限に抑えて高品質のラベルを提供するビデオ ラベル エンジンである SPAM を紹介します。
SPAM は 2 つの重要な洞察を中心に構築されています。 i) ほとんどの追跡シナリオは簡単に解決できます。
これを利用するために、事前トレーニングされたモデルを利用して高品質の疑似ラベルを生成し、より困難なインスタンスのより小さなサブセットに対して人間の関与を確保します。
ii) 時間にわたるトラック注釈の時空間依存関係の処理は、グラフを通じてエレガントかつ効率的に定式化できます。
したがって、統合されたグラフ定式化を使用して、時間にわたるトラックの検出と ID 関連の両方の注釈に対処します。
これらの洞察に基づいて、SPAM は、グラウンド トゥルースのラベル付けコストの一部で高品質のアノテーションを生成します。
SPAM ラベルでトレーニングされたトラッカーは、人間によるラベル付け作業のわずか 3 ~ 20\%$ しか必要とせず、人間によるアノテーションでトレーニングされたトラッカーと同等のパフォーマンスを達成することを実証しました。
したがって、SPAM は、大規模な追跡データセットの高効率なラベル付けへの道を開きます。
すべてのモデルとコードを公開します。
要約(オリジナル)
Increasing the annotation efficiency of trajectory annotations from videos has the potential to enable the next generation of data-hungry tracking algorithms to thrive on large-scale datasets. Despite the importance of this task, there are currently very few works exploring how to efficiently label tracking datasets comprehensively. In this work, we introduce SPAM, a video label engine that provides high-quality labels with minimal human intervention. SPAM is built around two key insights: i) most tracking scenarios can be easily resolved. To take advantage of this, we utilize a pre-trained model to generate high-quality pseudo-labels, reserving human involvement for a smaller subset of more difficult instances; ii) handling the spatiotemporal dependencies of track annotations across time can be elegantly and efficiently formulated through graphs. Therefore, we use a unified graph formulation to address the annotation of both detections and identity association for tracks across time. Based on these insights, SPAM produces high-quality annotations with a fraction of ground truth labeling cost. We demonstrate that trackers trained on SPAM labels achieve comparable performance to those trained on human annotations while requiring only $3-20\%$ of the human labeling effort. Hence, SPAM paves the way towards highly efficient labeling of large-scale tracking datasets. We release all models and code.
arxiv情報
著者 | Orcun Cetintas,Tim Meinhardt,Guillem Brasó,Laura Leal-Taixé |
発行日 | 2024-10-01 15:34:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google