要約
最新のトラッカーのパフォーマンスは、不透明なオブジェクトに比べて透明なオブジェクトでは大幅に低下します。
これは主に 2 つの異なる理由によるものです。
透明なオブジェクトは、その外観が背景の影響を直接受けるという点で独特です。
さらに、透明なオブジェクト シーンには、視覚的に類似したオブジェクト (妨害物) が多数含まれていることが多く、追跡の失敗につながることがよくあります。
ただし、最新の追跡アーキテクチャの開発には、透明なオブジェクト追跡には存在しない大規模なトレーニング セットが必要です。
前述の問題に対処する 2 つの寄稿を紹介します。
私たちは、境界ボックスとセグメンテーション マスクによって注釈が付けられた、全体で 104,343 枚の画像を含む 2k 以上のシーケンスで構成される、最初の透明オブジェクト追跡トレーニング データセット Trans2k を提案します。
このデータセットでトレーニングされた標準トラッカーは、一貫して最大 16% 向上します。
私たちの 2 番目の貢献は、位置特定精度とターゲット識別を別個のタスクとして扱い、それらを新しいアーキテクチャによって実装する、新しいディストラクタ対応透明オブジェクト トラッカー (DiTra) です。
DiTra は、透明なオブジェクトの追跡に新しい最先端技術を導入し、不透明なオブジェクトに対して適切に一般化します。
要約(オリジナル)
Performance of modern trackers degrades substantially on transparent objects compared to opaque objects. This is largely due to two distinct reasons. Transparent objects are unique in that their appearance is directly affected by the background. Furthermore, transparent object scenes often contain many visually similar objects (distractors), which often lead to tracking failure. However, development of modern tracking architectures requires large training sets, which do not exist in transparent object tracking. We present two contributions addressing the aforementioned issues. We propose the first transparent object tracking training dataset Trans2k that consists of over 2k sequences with 104,343 images overall, annotated by bounding boxes and segmentation masks. Standard trackers trained on this dataset consistently improve by up to 16%. Our second contribution is a new distractor-aware transparent object tracker (DiTra) that treats localization accuracy and target identification as separate tasks and implements them by a novel architecture. DiTra sets a new state-of-the-art in transparent object tracking and generalizes well to opaque objects.
arxiv情報
著者 | Alan Lukezic,Ziga Trojer,Jiri Matas,Matej Kristan |
発行日 | 2024-01-08 13:04:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google