要約
三河源流地域は、豊富な手付かずの植物資源が眠る中国の非常に重要な自然保護区です。
植物研究とインテリジェントな植物管理の実際的な要件を満たすために、私たちは Three-River-Source 地域 (PTRS) での植物検出のための大規模なデータセットを構築します。
このデータセットは、さまざまなセンサーとプラットフォームによってキャプチャされ、さまざまな形状とサイズのオブジェクトを特徴とする 2160*3840 ピクセルの 6965 枚の高解像度画像で構成されています。
その後、植物画像解釈の専門家チームが、これらの画像に一般的に発生する 21 のオブジェクト カテゴリの注釈を付けました。
完全に注釈が付けられた PTRS 画像には 122,300 個の植物の葉のインスタンスが含まれており、それぞれが水平の長方形でラベル付けされています。
PTRS は、密なオクルージョン、さまざまな葉の解像度、植物間の高い特徴の類似性などの課題を私たちに提示し、PlantDet という名前の新しい物体検出ネットワークの開発を促しました。
このネットワークは、ウィンドウベースの効率的なセルフ アテンション モジュール (ST ブロック) を採用して、複数のスケールで堅牢な特徴表現を生成し、小さく密に遮蔽されたオブジェクトの検出効率を向上させます。
私たちの実験結果は、精度 88.1%、平均精度 (mAP) 77.6%、ベースラインと比較して高い再現率という、提案した植物検出ベンチマークの有効性を検証しています。
さらに、私たちの方法は、小さなオブジェクトの欠落の問題を効果的に克服します。
私たちは、この分野の研究をさらに進めるために、データとコードを関係者と共有する予定です。
要約(オリジナル)
The Three-River-Source region is a highly significant natural reserve in China that harbors a plethora of untamed botanical resources. To meet the practical requirements of botanical research and intelligent plant management, we construct a large-scale dataset for Plant detection in the Three-River-Source region (PTRS). This dataset comprises 6965 high-resolution images of 2160*3840 pixels, captured by diverse sensors and platforms, and featuring objects of varying shapes and sizes. Subsequently, a team of botanical image interpretation experts annotated these images with 21 commonly occurring object categories. The fully annotated PTRS images contain 122, 300 instances of plant leaves, each labeled by a horizontal rectangle. The PTRS presents us with challenges such as dense occlusion, varying leaf resolutions, and high feature similarity among plants, prompting us to develop a novel object detection network named PlantDet. This network employs a window-based efficient self-attention module (ST block) to generate robust feature representation at multiple scales, improving the detection efficiency for small and densely-occluded objects. Our experimental results validate the efficacy of our proposed plant detection benchmark, with a precision of 88.1%, a mean average precision (mAP) of 77.6%, and a higher recall compared to the baseline. Additionally, our method effectively overcomes the issue of missing small objects. We intend to share our data and code with interested parties to advance further research in this field.
arxiv情報
著者 | Huanhuan Li,Xuechao Zou,Yu-an Zhang,Jiangcai Zhaba,Guomei Li,Lamao Yongga |
発行日 | 2023-07-05 14:49:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google