要約
視覚オブジェクト追跡のタスクに機械学習が広く採用されているにもかかわらず、最近の学習ベースのアプローチでは、視覚追跡が本質的にシーケンスレベルのタスクであるという事実が見過ごされてきました。
フレームレベルのトレーニングに大きく依存しているため、データ分布とタスクの目的の両方に関して、トレーニングとテストの間に必然的に矛盾が生じます。
この作業では、強化学習に基づく視覚追跡のためのシーケンス レベルのトレーニング戦略を紹介し、データ サンプリング、学習目標、およびデータ拡張のシーケンス レベルの設計が追跡アルゴリズムの精度と堅牢性をどのように向上させるかについて説明します。
LaSOT、TrackingNet、GOT-10k などの標準ベンチマークでの実験では、4 つの代表的な追跡モデル、SiamRPN++、SiamAttn、TransT、および TrDiMP が、アーキテクチャを変更せずにトレーニングに提案された方法を組み込むことで一貫して改善されることが示されました。
要約(オリジナル)
Despite the extensive adoption of machine learning on the task of visual object tracking, recent learning-based approaches have largely overlooked the fact that visual tracking is a sequence-level task in its nature; they rely heavily on frame-level training, which inevitably induces inconsistency between training and testing in terms of both data distributions and task objectives. This work introduces a sequence-level training strategy for visual tracking based on reinforcement learning and discusses how a sequence-level design of data sampling, learning objectives, and data augmentation can improve the accuracy and robustness of tracking algorithms. Our experiments on standard benchmarks including LaSOT, TrackingNet, and GOT-10k demonstrate that four representative tracking models, SiamRPN++, SiamAttn, TransT, and TrDiMP, consistently improve by incorporating the proposed methods in training without modifying architectures.
arxiv情報
著者 | Minji Kim,Seungkwan Lee,Jungseul Ok,Bohyung Han,Minsu Cho |
発行日 | 2022-09-20 12:46:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google