要約
モデル2(SAM2)を視覚オブジェクト追跡(投票)タスクにセグメントに適応させるための効果的なアプローチを提示します。
私たちの方法は、SAM2の強力な事前訓練を受けた機能を活用し、投票アプリケーションでのパフォーマンスを強化するためのいくつかの重要な手法を組み込みます。
SAM2と提案された最適化を組み合わせることで、2024 ICPRマルチモーダルオブジェクト追跡チャレンジで89.4の1位AUCスコアを達成し、アプローチの有効性を実証しました。
このペーパーでは、私たちの方法論、SAM2に行われた特定の強化、およびデータセットのマルチモダリティの側面とともに、投票ソリューションのコンテキストでの結果の包括的な分析について詳しく説明しています。
要約(オリジナル)
We present an effective approach for adapting the Segment Anything Model 2 (SAM2) to the Visual Object Tracking (VOT) task. Our method leverages the powerful pre-trained capabilities of SAM2 and incorporates several key techniques to enhance its performance in VOT applications. By combining SAM2 with our proposed optimizations, we achieved a first place AUC score of 89.4 on the 2024 ICPR Multi-modal Object Tracking challenge, demonstrating the effectiveness of our approach. This paper details our methodology, the specific enhancements made to SAM2, and a comprehensive analysis of our results in the context of VOT solutions along with the multi-modality aspect of the dataset.
arxiv情報
著者 | Cheng-Yen Yang,Hsiang-Wei Huang,Pyong-Kun Kim,Chien-Kai Kuo,Jui-Wei Chang,Kwang-Ju Kim,Chung-I Huang,Jenq-Neng Hwang |
発行日 | 2025-05-23 17:04:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google