RGB-D Indiscernible Object Counting in Underwater Scenes


私たちは、識別不能物体計数 (IOC) という新しい課題を体系的に研究することで、この分野の最前線をさらに前進させます。その目標は、周囲と混ざり合った物体を計数することです。
適切な IOC データセットが不足しているため、合計 5,637 枚の高解像度画像と 659,024 個の注釈付き中心点を含む大規模なデータセット IOCfish5K を紹介します。
私たちのデータセットは、水中シーンの多数の識別できないオブジェクト (主に魚) で構成されているため、アノテーション プロセスがさらに困難になります。
IOCfish5K は、スケールが大きく、画像解像度が高く、注釈が多く、シーンが高密度であるため、認識できないシーンを含む既存のデータセットよりも優れています。
これらすべての側面により、このデータセットは IOC にとってこれまでで最も困難なデータセットとなり、この分野の進歩を裏付けています。
深度推定基礎モデルの最近の進歩の恩恵を受けて、Depth Anything V2 モデルを使用して擬似ラベルを生成することにより、IOCfish5K 用の高品質の深度マップを構築します。
IOCfish5K の RGB-D バージョンの名前は IOCfish5K-D です。
IOCfish5K でのベンチマークを目的として、オブジェクトをカウントするための 14 の主流の方法を選択し、それらを慎重に評価します。
マルチモーダル IOCfish5K-D については、他の 4 つの一般的なマルチモーダル計数方法を評価します。
さらに、統一フレームワークで密度と回帰ブランチを組み合わせ、隠されたシーンでのオブジェクトのカウントに効果的に取り組むことができる、新しい強力なベースラインである IOCFormer を提案します。
また、環境内に隠されたオブジェクトの検出とカウントを支援する際に、深度モダリティを効果的に使用できるようにする IOCFormer-D も提案します。
実験では、IOCFormer と IOCFormer-D が、それぞれ IOCfish5K と IOCfish5K-D で最先端のスコアを達成していることが示されています。


Recently, indiscernible/camouflaged scene understanding has attracted lots of research attention in the vision community. We further advance the frontier of this field by systematically studying a new challenge named indiscernible object counting (IOC), the goal of which is to count objects that are blended with respect to their surroundings. Due to a lack of appropriate IOC datasets, we present a large-scale dataset IOCfish5K which contains a total of 5,637 high-resolution images and 659,024 annotated center points. Our dataset consists of a large number of indiscernible objects (mainly fish) in underwater scenes, making the annotation process all the more challenging. IOCfish5K is superior to existing datasets with indiscernible scenes because of its larger scale, higher image resolutions, more annotations, and denser scenes. All these aspects make it the most challenging dataset for IOC so far, supporting progress in this area. Benefiting from the recent advancements of depth estimation foundation models, we construct high-quality depth maps for IOCfish5K by generating pseudo labels using the Depth Anything V2 model. The RGB-D version of IOCfish5K is named IOCfish5K-D. For benchmarking purposes on IOCfish5K, we select 14 mainstream methods for object counting and carefully evaluate them. For multimodal IOCfish5K-D, we evaluate other 4 popular multimodal counting methods. Furthermore, we propose IOCFormer, a new strong baseline that combines density and regression branches in a unified framework and can effectively tackle object counting under concealed scenes. We also propose IOCFormer-D to enable the effective usage of depth modality in helping detect and count objects hidden in their environments. Experiments show that IOCFormer and IOCFormer-D achieve state-of-the-art scores on IOCfish5K and IOCfish5K-D, respectively.


著者 Guolei Sun,Xiaogang Cheng,Zhaochong An,Xiaokang Wang,Yun Liu,Deng-Ping Fan,Ming-Ming Cheng,Luc Van Gool
発行日 2025-01-13 17:45:59+00:00
arxivサイト arxiv_id(pdf)

