Detection and Geographic Localization of Natural Objects in the Wild: A Case Study on Palms

要約

手のひらは、熱帯の森林の健康、生物多様性、および地元の経済と世界の森林製品供給チェーンをサポートする人間の影響の生態学的および経済的な指標です。
プランテーションでのヤシの検出はよく研究されていますが、密集した森林に自然に発生する手のひらをマッピングする努力は、クラウン、不均一な陰影、不均一な風景によって制限されたままです。
私たちは、大きなオルソモサイック画像を使用して密な熱帯林の手のひらを検出および局在させるための柔軟なパイプラインであるプリズム(処理、推論、セグメンテーション、およびマッピング)を開発します。
オルソモサイクは、数千の航空画像から作成され、数百ギガバイトにまたがっています。
私たちの貢献は3つあります。
まず、エクアドル西部の21の生態学的に多様なサイトで収集された大規模なUAV由来のオルソモサイ類データセットを構築し、8,830の境界ボックスと5,026パームセンターポイントが注釈を付けました。
第二に、効率とパフォーマンスに基づいて複数の最先端のオブジェクト検出器を評価し、ゼロショットSAM 2をセグメンテーションバックボーンとして統合し、正確な地理マッピングの結果を改良します。
第三に、キャリブレーション方法を適用して、信頼スコアをIOUと整列させ、機能の説明可能性のために顕著性マップを調べます。
手のひらのために最適化されていますが、プリズムは東ホワイトパインズなどの他の自然な物体を識別するために適応できます。
将来の作業では、低解像度のデータセット(0.5〜1M)の転送学習を検討します。

要約(オリジナル)

Palms are ecologically and economically indicators of tropical forest health, biodiversity, and human impact that support local economies and global forest product supply chains. While palm detection in plantations is well-studied, efforts to map naturally occurring palms in dense forests remain limited by overlapping crowns, uneven shading, and heterogeneous landscapes. We develop PRISM (Processing, Inference, Segmentation, and Mapping), a flexible pipeline for detecting and localizing palms in dense tropical forests using large orthomosaic images. Orthomosaics are created from thousands of aerial images and spanning several to hundreds of gigabytes. Our contributions are threefold. First, we construct a large UAV-derived orthomosaic dataset collected across 21 ecologically diverse sites in western Ecuador, annotated with 8,830 bounding boxes and 5,026 palm center points. Second, we evaluate multiple state-of-the-art object detectors based on efficiency and performance, integrating zero-shot SAM 2 as the segmentation backbone, and refining the results for precise geographic mapping. Third, we apply calibration methods to align confidence scores with IoU and explore saliency maps for feature explainability. Though optimized for palms, PRISM is adaptable for identifying other natural objects, such as eastern white pines. Future work will explore transfer learning for lower-resolution datasets (0.5 to 1m).

arxiv情報

著者 Kangning Cui,Rongkun Zhu,Manqi Wang,Wei Tang,Gregory D. Larsen,Victor P. Pauca,Sarra Alqahtani,Fan Yang,David Segurado,David Lutz,Jean-Michel Morel,Miles R. Silman
発行日 2025-02-18 16:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク