要約
視覚の問題における最近の傾向の 1 つは、自然言語のキャプションを使用して対象のオブジェクトを説明することです。
このアプローチは、境界ボックスやカテゴリの注釈に依存する従来の方法のいくつかの制限を克服できます。
この論文では、ユーザーが自然言語の説明を入力することでビデオ内のオブジェクトを追跡できるようにする、Type-to-Track と呼ばれる複数オブジェクト追跡の新しいパラダイムを紹介します。
我々は、GroOT と呼ばれるその接地複数物体追跡タスク用の新しいデータセットを紹介します。このデータセットには、さまざまな種類の物体と、それらの外観と動作を詳細に説明する対応するテキスト キャプションを含むビデオが含まれています。
さらに、2 つの新しい評価プロトコルを導入し、このタスク専用の評価指標を策定します。
我々は、3 次テンソル分解を使用してトランスフォーマーベースの eMbed-ENcoDE-extRact フレームワーク (MENDER) をモデル化する新しい効率的な手法を開発します。
5 つのシナリオでの実験では、MENDER アプローチが精度と効率の点で別の 2 段階設計よりも優れており、精度が最大 14.7%、速度が 4$\times$ 高速であることが示されています。
要約(オリジナル)
One of the recent trends in vision problems is to use natural language captions to describe the objects of interest. This approach can overcome some limitations of traditional methods that rely on bounding boxes or category annotations. This paper introduces a novel paradigm for Multiple Object Tracking called Type-to-Track, which allows users to track objects in videos by typing natural language descriptions. We present a new dataset for that Grounded Multiple Object Tracking task, called GroOT, that contains videos with various types of objects and their corresponding textual captions describing their appearance and action in detail. Additionally, we introduce two new evaluation protocols and formulate evaluation metrics specifically for this task. We develop a new efficient method that models a transformer-based eMbed-ENcoDE-extRact framework (MENDER) using the third-order tensor decomposition. The experiments in five scenarios show that our MENDER approach outperforms another two-stage design in terms of accuracy and efficiency, up to 14.7% accuracy and 4$\times$ speed faster.
arxiv情報
著者 | Pha Nguyen,Kha Gia Quach,Kris Kitani,Khoa Luu |
発行日 | 2023-08-22 16:49:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google