Tracking Any Object Amodally

要約

アモーダル知覚、つまり部分的な視覚から完全な物体の構造を理解する能力は、幼児であっても基本的なスキルです。
その重要性は自動運転などのアプリケーションにまで及び、そこでは大きく遮蔽されたオブジェクトを明確に理解することが不可欠です。
ただし、最新の検出および追跡アルゴリズムでは、おそらくほとんどのデータセットでモーダル アノテーションが普及しているため、この重要な機能が見落とされることがよくあります。
アモーダル データの不足に対処するために、数千のビデオ シーケンスの 880 の多様なカテゴリを特徴とする TAO-Amodal ベンチマークを導入します。
私たちのデータセットには、部分的にフレーム外にあるオブジェクトを含む、可視オブジェクトと遮蔽されたオブジェクトのモーダル境界ボックスとモーダル境界ボックスが含まれています。
オブジェクトの永続性を備えたアモーダル トラッキングを強化するために、軽量のプラグイン モジュールであるアモーダル エクスパンダを利用して、データ拡張による数百のビデオ シーケンスの微調整を通じて、標準的なモーダル トラッカーをアモーダル トラッカーに変換します。
TAO-Amodal では、遮蔽されたオブジェクトの検出と追跡において 3.3\% と 1.6\% の改善を達成しました。
人々を対象に評価した場合、私たちの方法は最先端のモーダルベースラインと比較して 2 倍の劇的な改善をもたらしました。

要約(オリジナル)

Amodal perception, the ability to comprehend complete object structures from partial visibility, is a fundamental skill, even for infants. Its significance extends to applications like autonomous driving, where a clear understanding of heavily occluded objects is essential. However, modern detection and tracking algorithms often overlook this critical capability, perhaps due to the prevalence of modal annotations in most datasets. To address the scarcity of amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse categories in thousands of video sequences. Our dataset includes amodal and modal bounding boxes for visible and occluded objects, including objects that are partially out-of-frame. To enhance amodal tracking with object permanence, we leverage a lightweight plug-in module, the amodal expander, to transform standard, modal trackers into amodal ones through fine-tuning on a few hundred video sequences with data augmentation. We achieve a 3.3\% and 1.6\% improvement on the detection and tracking of occluded objects on TAO-Amodal. When evaluated on people, our method produces dramatic improvements of 2x compared to state-of-the-art modal baselines.

arxiv情報

著者 Cheng-Yen Hsieh,Tarasha Khurana,Achal Dave,Deva Ramanan
発行日 2024-01-23 18:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク