MEX: Memory-efficient Approach to Referring Multi-Object Tracking

要約

参照マルチオブジェクト追跡(RMOT)は、コンピュータービジョンと自然言語処理の交差点で有望な研究方向として急速に牽引力を獲得した比較的新しい概念です。
従来のマルチオブジェクトトラッキングとは異なり、RMOTはオブジェクトを識別および追跡し、オブジェクトクラス名のテキスト説明を組み込み、アプローチをより直感的にします。
この挑戦的な問題に対処するために、さまざまな手法が提案されています。
ただし、ほとんどの場合、エンドツーエンドの性質のため、ネットワーク全体のトレーニングが必要です。
これらの方法の中で、イクンは特に有望な解決策として浮上しています。
したがって、パイプラインをさらに調査し、パフォーマンスを向上させます。
この論文では、メモリ効率の高いクロスモダリティと呼ばれる実用的なモジュールMEXを紹介します。
このメモリ効率の高い手法は、Ikunのような既製のトラッカーに直接適用でき、その結果、大幅なアーキテクチャの改善が可能になります。
私たちの方法は、4 GBのメモリを備えた単一のGPUでの推論中に効果的であることが証明されています。
さまざまなベンチマークの中で、関連する言語表現を備えた多様な自律運転シーンを提供するRefer-Kittiデータセットは、この問題を研究するのに特に役立ちます。
経験的に、私たちの方法は、Hota追跡スコアに関する有効性と効率性を示し、メモリの割り当てと処理速度を大幅に改善します。

要約(オリジナル)

Referring Multi-Object Tracking (RMOT) is a relatively new concept that has rapidly gained traction as a promising research direction at the intersection of computer vision and natural language processing. Unlike traditional multi-object tracking, RMOT identifies and tracks objects and incorporates textual descriptions for object class names, making the approach more intuitive. Various techniques have been proposed to address this challenging problem; however, most require the training of the entire network due to their end-to-end nature. Among these methods, iKUN has emerged as a particularly promising solution. Therefore, we further explore its pipeline and enhance its performance. In this paper, we introduce a practical module dubbed Memory-Efficient Cross-modality — MEX. This memory-efficient technique can be directly applied to off-the-shelf trackers like iKUN, resulting in significant architectural improvements. Our method proves effective during inference on a single GPU with 4 GB of memory. Among the various benchmarks, the Refer-KITTI dataset, which offers diverse autonomous driving scenes with relevant language expressions, is particularly useful for studying this problem. Empirically, our method demonstrates effectiveness and efficiency regarding HOTA tracking scores, substantially improving memory allocation and processing speed.

arxiv情報

著者 Huu-Thien Tran,Phuoc-Sang Pham,Thai-Son Tran,Khoa Luu
発行日 2025-02-19 16:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク