Benchmarking In-the-wild Multimodal Disease Recognition and A Versatile Baseline

要約

既存の植物病害分類モデルは、研究室内の病害画像の認識において顕著な性能を達成しています。
ただし、実際の画像を分類する際にはパフォーマンスが大幅に低下することがよくあります。
さらに、野生の植物の画像は、さまざまな病気にわたって同様の外観を示す可能性がある(つまり、クラス間の差異が小さい)一方、同じ病気がまったく異なって見える(つまり、クラス内の差異が大きい)場合があることを観察しました。
この観察に動機付けられて、我々は、最大数の病気のクラスだけでなく、各病気のテキストベースの説明も含む、野生における多峰性の植物病害認識データセットを提案します。
特に、新たに提供されるテキスト記述は、テキストモダリティで豊富な情報を提供し、クラス間の不一致が小さく、クラス内の差異が大きい問題を伴う野生疾患の分類を容易にするために導入されています。
したがって、私たちが提案したデータセットは、現実世界での疾患認識方法を評価するための理想的なテストベッドとみなすことができます。
さらに、特定のクラスの複数のプロトタイプを通じてテキストの説明と視覚データをモデル化する、強力かつ多用途のベースラインをさらに提示します。
分類におけるマルチモーダル プロトタイプの貢献を融合することにより、私たちのベースラインは、クラス間の小さな不一致とクラス内の大きな分散の問題に効果的に対処できます。
注目すべきことに、私たちのベースライン モデルは疾患を分類するだけでなく、ショット数が少ないシナリオやトレーニング不要のシナリオでも疾患を認識できます。
広範なベンチマーク結果は、私たちが提案した野生環境におけるマルチモーダル データセットが植物病害認識タスクに多くの新たな課題をもたらしており、将来の研究に向けて改善の余地が大きいことを示しています。

要約(オリジナル)

Existing plant disease classification models have achieved remarkable performance in recognizing in-laboratory diseased images. However, their performance often significantly degrades in classifying in-the-wild images. Furthermore, we observed that in-the-wild plant images may exhibit similar appearances across various diseases (i.e., small inter-class discrepancy) while the same diseases may look quite different (i.e., large intra-class variance). Motivated by this observation, we propose an in-the-wild multimodal plant disease recognition dataset that contains the largest number of disease classes but also text-based descriptions for each disease. Particularly, the newly provided text descriptions are introduced to provide rich information in textual modality and facilitate in-the-wild disease classification with small inter-class discrepancy and large intra-class variance issues. Therefore, our proposed dataset can be regarded as an ideal testbed for evaluating disease recognition methods in the real world. In addition, we further present a strong yet versatile baseline that models text descriptions and visual data through multiple prototypes for a given class. By fusing the contributions of multimodal prototypes in classification, our baseline can effectively address the small inter-class discrepancy and large intra-class variance issues. Remarkably, our baseline model can not only classify diseases but also recognize diseases in few-shot or training-free scenarios. Extensive benchmarking results demonstrate that our proposed in-the-wild multimodal dataset sets many new challenges to the plant disease recognition task and there is a large space to improve for future works.

arxiv情報

著者 Tianqi Wei,Zhi Chen,Zi Huang,Xin Yu
発行日 2024-08-06 11:49:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク