要約
低品質の住宅、特に特定の屋根の特性はマラリアのリスク増加と関連しているため、リモートセンシング画像に基づく屋根の種類の分類はマラリアのリスク評価をサポートし、それによって病気の予防に役立ちます。
この分野の研究を支援するために、私たちは Nacala-Roof-material データセットをリリースしました。これには、モザンビークからの高解像度ドローン画像が含まれており、家の輪郭を描き、屋根のタイプを指定する対応するラベルが付いています。
このデータセットは、オブジェクトの検出、分類、セグメンテーションを含むマルチタスクのコンピューター ビジョン問題を定義します。
さらに、データセットに対するさまざまな最先端のアプローチのベンチマークを行いました。
Canonical U-Net、YOLOv8、および事前トレーニングされた DINOv2 のカスタム デコーダーがベースラインとして機能しました。
各方法には利点があるが、すべてのタスクにおいて優れている方法はないことを示し、これはマルチタスク学習における将来の研究におけるデータセットの可能性を強調しています。
タスクは密接に関連していますが、オブジェクトの正確なセグメンテーションは必ずしもインスタンスの正確な分離を意味するものではなく、またその逆も同様です。
私たちは、オブジェクトの内部をさらに分離する深度順序分水界 (DOW) アプローチの変形を導入することで、この一般的な問題に対処し、オブジェクトの描写と分離を改善します。
私たちの DOW バリアントは、U-Net と DINOv2 バックボーンの両方のパフォーマンスを向上させる汎用的なアプローチであり、セマンティック セグメンテーションとインスタンス セグメンテーションの間のより良いトレードオフにつながることを示します。
要約(オリジナル)
As low-quality housing and in particular certain roof characteristics are associated with an increased risk of malaria, classification of roof types based on remote sensing imagery can support the assessment of malaria risk and thereby help prevent the disease. To support research in this area, we release the Nacala-Roof-Material dataset, which contains high-resolution drone images from Mozambique with corresponding labels delineating houses and specifying their roof types. The dataset defines a multi-task computer vision problem, comprising object detection, classification, and segmentation. In addition, we benchmarked various state-of-the-art approaches on the dataset. Canonical U-Nets, YOLOv8, and a custom decoder on pretrained DINOv2 served as baselines. We show that each of the methods has its advantages but none is superior on all tasks, which highlights the potential of our dataset for future research in multi-task learning. While the tasks are closely related, accurate segmentation of objects does not necessarily imply accurate instance separation, and vice versa. We address this general issue by introducing a variant of the deep ordinal watershed (DOW) approach that additionally separates the interior of objects, allowing for improved object delineation and separation. We show that our DOW variant is a generic approach that improves the performance of both U-Net and DINOv2 backbones, leading to a better trade-off between semantic segmentation and instance segmentation.
arxiv情報
著者 | Venkanna Babu Guthula,Stefan Oehmcke,Remigio Chilaule,Hui Zhang,Nico Lang,Ankit Kariryaa,Johan Mottelson,Christian Igel |
発行日 | 2024-06-07 14:07:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google