要約
参照マルチオブジェクト追跡 (RMOT) は、自然言語表現で表される人間の指示に従って複数のオブジェクトを検出および追跡することを目的としています。
既存の RMOT ベンチマークは通常、静的な規制と統合された手動のアノテーションを通じて策定されます。
このアプローチでは、顕著な多様性が欠如し、実装範囲が制限されます。
この作業では、私たちの重要なアイデアは、可能な限り差別的な言語の単語を導入することによって、複数のオブジェクトの追跡を参照するタスクをブートストラップすることです。
具体的には、まず Refer-KITTI を Refer-KITTI-V2 という名前の大規模データセットに開発します。
それは 2,719 の手動注釈から始まり、クラスの不均衡の問題に対処し、Refer-KITTI と比較して現実世界のシナリオに近づけるためにより多くのキーワードを導入しています。
さらに、大規模な言語モデルをプロンプトすることで、合計 9,758 個の注釈に拡張され、617 個の異なる単語が作成され、以前の RMOT ベンチマークを上回っています。
さらに、RMOT のエンドツーエンド フレームワークは、シンプルかつエレガントな時間的進歩戦略によってブートストラップされており、以前のアプローチよりも優れたパフォーマンスを実現します。
ソース コードとデータセットは https://github.com/zyn213/TempRMOT で入手できます。
要約(オリジナル)
Referring multi-object tracking (RMOT) aims at detecting and tracking multiple objects following human instruction represented by a natural language expression. Existing RMOT benchmarks are usually formulated through manual annotations, integrated with static regulations. This approach results in a dearth of notable diversity and a constrained scope of implementation. In this work, our key idea is to bootstrap the task of referring multi-object tracking by introducing discriminative language words as much as possible. In specific, we first develop Refer-KITTI into a large-scale dataset, named Refer-KITTI-V2. It starts with 2,719 manual annotations, addressing the issue of class imbalance and introducing more keywords to make it closer to real-world scenarios compared to Refer-KITTI. They are further expanded to a total of 9,758 annotations by prompting large language models, which create 617 different words, surpassing previous RMOT benchmarks. In addition, the end-to-end framework in RMOT is also bootstrapped by a simple yet elegant temporal advancement strategy, which achieves better performance than previous approaches. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
arxiv情報
著者 | Yani Zhang,Dongming Wu,Wencheng Han,Xingping Dong |
発行日 | 2024-06-07 16:02:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google