要約
視覚的物体追跡のタスクにおいて機械学習が広く採用されているにも関わらず、近年の学習ベースのアプローチは、視覚的追跡がその性質上シーケンスレベルのタスクであるという事実をほとんど見落としている。彼らはフレームレベルの学習に大きく依存しており、データ分布とタスク目的の両方において、学習とテストの間に矛盾が必然的に生じてしまうのだ。本研究では、強化学習に基づくビジュアルトラッキングのためのシーケンスレベルの学習戦略を導入し、データサンプリング、学習目的、データ増強のシーケンスレベルの設計が、トラッキングアルゴリズムの精度とロバスト性をどのように改善できるかを議論する。LaSOT、TrackingNet、GOT-10kを含む標準的なベンチマークを用いた実験により、4つの代表的なトラッキングモデル、SiamRPN++、SiamAttn、TransT、TrDiMPは、アーキテクチャを変更せずにトレーニングに提案手法を取り入れることにより一貫して改善することを実証する。
要約(オリジナル)
Despite the extensive adoption of machine learning on the task of visual object tracking, recent learning-based approaches have largely overlooked the fact that visual tracking is a sequence-level task in its nature; they rely heavily on frame-level training, which inevitably induces inconsistency between training and testing in terms of both data distributions and task objectives. This work introduces a sequence-level training strategy for visual tracking based on reinforcement learning and discusses how a sequence-level design of data sampling, learning objectives, and data augmentation can improve the accuracy and robustness of tracking algorithms. Our experiments on standard benchmarks including LaSOT, TrackingNet, and GOT-10k demonstrate that four representative tracking models, SiamRPN++, SiamAttn, TransT, and TrDiMP, consistently improve by incorporating the proposed methods in training without modifying architectures.
arxiv情報
著者 | Minji Kim,Seungkwan Lee,Jungseul Ok,Bohyung Han,Minsu Cho |
発行日 | 2022-08-11 13:15:36+00:00 |
arxivサイト | arxiv_id(pdf) |