Beyond Greedy Search: Tracking by Multi-Agent Reinforcement Learning-based Beam Search

要約

ビデオ内のターゲットを追跡するために、現在のビジュアル トラッカーは通常、各フレームでターゲット オブジェクトのローカリゼーションに貪欲な検索を採用しています。つまり、最大の応答スコアを持つ候補領域が各フレームの追跡結果として選択されます。
ただし、これは最適な選択ではない可能性があることがわかりました。特に、重いオクルージョンや速い動きなどの困難な追跡シナリオに遭遇した場合はそうです。
この問題に対処するために、複数の追跡軌跡を維持し、視覚追跡にビーム検索戦略を適用して、蓄積されたエラーが少ない軌跡を特定できるようにすることを提案します。
したがって、この論文では、BeamTracking と呼ばれる、新しいマルチエージェント強化学習ベースのビーム検索追跡戦略を紹介します。
これは主に、画像を入力として受け取り、ビーム検索アルゴリズムを使用してさまざまな説明を生成する画像キャプション タスクに触発されています。
したがって、追跡は、複数の並列意思決定プロセスによって満たされるサンプル選択問題として定式化されます。各プロセスは、各フレームの追跡結果として 1 つのサンプルを選択することを目的としています。
維持された各軌跡は、意思決定を実行し、関連情報を更新するために実行する必要があるアクションを決定するエージェントに関連付けられています。
すべてのフレームが処理されたら、累積スコアが最大の軌跡を追跡結果として選択します。
7 つの一般的な追跡ベンチマーク データセットに対する広範な実験により、提案されたアルゴリズムの有効性が検証されました。

要約(オリジナル)

To track the target in a video, current visual trackers usually adopt greedy search for target object localization in each frame, that is, the candidate region with the maximum response score will be selected as the tracking result of each frame. However, we found that this may be not an optimal choice, especially when encountering challenging tracking scenarios such as heavy occlusion and fast motion. To address this issue, we propose to maintain multiple tracking trajectories and apply beam search strategy for visual tracking, so that the trajectory with fewer accumulated errors can be identified. Accordingly, this paper introduces a novel multi-agent reinforcement learning based beam search tracking strategy, termed BeamTracking. It is mainly inspired by the image captioning task, which takes an image as input and generates diverse descriptions using beam search algorithm. Accordingly, we formulate the tracking as a sample selection problem fulfilled by multiple parallel decision-making processes, each of which aims at picking out one sample as their tracking result in each frame. Each maintained trajectory is associated with an agent to perform the decision-making and determine what actions should be taken to update related information. When all the frames are processed, we select the trajectory with the maximum accumulated score as the tracking result. Extensive experiments on seven popular tracking benchmark datasets validated the effectiveness of the proposed algorithm.

arxiv情報

著者 Xiao Wang,Zhe Chen,Bo Jiang,Jin Tang,Bin Luo,Dacheng Tao
発行日 2022-08-30 11:20:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク