要約
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップのシーケンス全体を通して、特定のオブジェクトをセグメント化することを目的としている。最先端のVOS手法は、既存のデータセットにおいて優れた性能(例えば、90%以上のJ&F)を達成している。しかし、これらの既存データセットにおけるターゲットオブジェクトは、通常、比較的顕著で、支配的で、孤立しているため、複雑なシーンにおけるVOSはほとんど研究されていない。VOSを再検討し、より実世界に適用できるようにするため、我々は、複雑な環境におけるオブジェクトの追跡とセグメンテーションを研究するために、coMplex video Object SEgmentation(MOSE)という新しいVOSデータセットを収集する。MOSEには、2,149のビデオクリップと36のカテゴリから5,200のオブジェクトが含まれ、431,725の高品質オブジェクトセグメンテーションマスクが付属しています。MOSEデータセットの最も顕著な特徴は、混雑したオブジェクトやオクルージョンが存在する複雑なシーンである。映像中のターゲットオブジェクトは、一般的に他のオブジェクトに覆い隠され、いくつかのフレームで消えてしまう。提案するMOSEデータセットを分析するために、既存の18のVOS手法を提案するMOSEデータセットで4つの異なる設定の下でベンチマークし、包括的に比較する。実験の結果、現在のVOSアルゴリズムは、複雑なシーンにあるオブジェクトをうまく認識できないことがわかった。例えば、半教師付きVOS設定において、既存の最先端VOS手法の最高J&FはMOSEで59.4%に過ぎず、DAVISでの約90%のJ&F性能よりはるかに低いことが示されました。この結果から、既存のベンチマークでは優れた性能が達成されているものの、複雑なシーンでは未解決の課題があり、今後さらなる課題の探索が望まれることが明らかになりました。提案したMOSEデータセットは、https://henghuiding.github.io/MOSE で公開されています。
要約(オリジナル)
Video object segmentation (VOS) aims at segmenting a particular object throughout the entire video clip sequence. The state-of-the-art VOS methods have achieved excellent performance (e.g., 90+% J&F) on existing datasets. However, since the target objects in these existing datasets are usually relatively salient, dominant, and isolated, VOS under complex scenes has rarely been studied. To revisit VOS and make it more applicable in the real world, we collect a new VOS dataset called coMplex video Object SEgmentation (MOSE) to study the tracking and segmenting objects in complex environments. MOSE contains 2,149 video clips and 5,200 objects from 36 categories, with 431,725 high-quality object segmentation masks. The most notable feature of MOSE dataset is complex scenes with crowded and occluded objects. The target objects in the videos are commonly occluded by others and disappear in some frames. To analyze the proposed MOSE dataset, we benchmark 18 existing VOS methods under 4 different settings on the proposed MOSE dataset and conduct comprehensive comparisons. The experiments show that current VOS algorithms cannot well perceive objects in complex scenes. For example, under the semi-supervised VOS setting, the highest J&F by existing state-of-the-art VOS methods is only 59.4% on MOSE, much lower than their ~90% J&F performance on DAVIS. The results reveal that although excellent performance has been achieved on existing benchmarks, there are unresolved challenges under complex scenes and more efforts are desired to explore these challenges in the future. The proposed MOSE dataset has been released at https://henghuiding.github.io/MOSE.
arxiv情報
著者 | Henghui Ding,Chang Liu,Shuting He,Xudong Jiang,Philip H. S. Torr,Song Bai |
発行日 | 2023-02-03 17:20:03+00:00 |
arxivサイト | arxiv_id(pdf) |