要約
蚊媒介性疾患は、大規模な世界的な健康リスクをもたらし、発生を防ぐために繁殖部位の早期発見と積極的な制御を必要とします。
この論文では、視覚データとテキストデータを統合して自動検出、セグメンテーション、および蚊の繁殖サイト分析の推論をサポートするマルチモーダルデータセットであるVistext-Mosquitoを紹介します。
データセットには、オブジェクト検出用の1,828個の注釈付き画像、水面セグメンテーション用の142個の画像、および各画像にリンクされた自然言語推論テキストが含まれています。
Yolov9Sモデルは、オブジェクト検出のために0.92926の最高精度と0.92891の50@50を達成し、Yolov11n-segは0.91587のセグメンテーション精度と0.79795の50@50に達します。
推論生成のために、微調整されたBLIPモデルの最終的な損失は0.0028を達成し、BLEUスコアは54.7、Bertscore 0.91、Rouge-Lが0.87です。
このデータセットとモデルのフレームワークは、テーマ「予防は治療よりも優れている」を強調し、AIベースの検出が蚊媒介性のリスクに積極的に対処する方法を示しています。
データセットと実装コードは、githubで公開されています:https://github.com/adnanul-islam-jisun/vistext-mosquito
要約(オリジナル)
Mosquito-borne diseases pose a major global health risk, requiring early detection and proactive control of breeding sites to prevent outbreaks. In this paper, we present VisText-Mosquito, a multimodal dataset that integrates visual and textual data to support automated detection, segmentation, and reasoning for mosquito breeding site analysis. The dataset includes 1,828 annotated images for object detection, 142 images for water surface segmentation, and natural language reasoning texts linked to each image. The YOLOv9s model achieves the highest precision of 0.92926 and mAP@50 of 0.92891 for object detection, while YOLOv11n-Seg reaches a segmentation precision of 0.91587 and mAP@50 of 0.79795. For reasoning generation, our fine-tuned BLIP model achieves a final loss of 0.0028, with a BLEU score of 54.7, BERTScore of 0.91, and ROUGE-L of 0.87. This dataset and model framework emphasize the theme ‘Prevention is Better than Cure’, showcasing how AI-based detection can proactively address mosquito-borne disease risks. The dataset and implementation code are publicly available at GitHub: https://github.com/adnanul-islam-jisun/VisText-Mosquito
arxiv情報
著者 | Md. Adnanul Islam,Md. Faiyaz Abdullah Sayeedi,Md. Asaduzzaman Shuvo,Muhammad Ziaur Rahman,Shahanur Rahman Bappy,Raiyan Rahman,Swakkhar Shatabda |
発行日 | 2025-06-17 15:24:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google