要約
市民科学イニシアチブの急速な拡大により、生物多様性データベース、特にプレゼンスオンリー(PO)観測が大幅に増加した。POデータは種の分布とその動態を理解する上で非常に貴重ですが、種分布モデル(SDM)での使用はサンプリングバイアスと欠測の情報不足によって制限されます。ポアソン点過程はSDMに広く使用されており、Maxentは最も一般的な手法の1つである。Maxentは、特徴量と呼ばれる変数の事前定義された変換の関数として、サイト間の確率分布のエントロピーを最大化する。対照的に、ニューラルネットワークとディープラーニングは、複雑な入力変数からの自動特徴抽出のための有望な手法として登場した。入力変数の任意に複雑な変換は、バックプロパゲーションと確率的勾配降下(SGD)によってデータから効率的に学習できる。本論文では、最大エントロピーの原理を用いて、種間で共有される特徴を自動的に学習するニューラルネットワークを利用するDeepMaxentを提案する。そのために、正規化ポアソン損失を採用し、それぞれの種について、サイト間の存在確率をニューラルネットワークでモデル化する。異なる生物グループと共変量を持つ6つの地域にわたる、キャリブレーション用のPOデータと検証用の存在-不在(PA)データを用いて、空間サンプリングの偏りで知られるベンチマークデータセットでDeepMaxentを評価した。その結果、DeepMaxent は、すべての地域および分類群において、Maxent や他の主要な SDM よりも優れた性能を示すことがわかった。本手法は、サンプリングが不均一な領域で特に優れた性能を発揮し、SDMの性能を向上させる大きな可能性を示している。特に、我々のアプローチは、従来の単一種モデルよりも正確な予測をもたらし、手法強化の新たな可能性を開くものである。
要約(オリジナル)
The rapid expansion of citizen science initiatives has led to a significant growth of biodiversity databases, and particularly presence-only (PO) observations. PO data are invaluable for understanding species distributions and their dynamics, but their use in a Species Distribution Model (SDM) is curtailed by sampling biases and the lack of information on absences. Poisson point processes are widely used for SDMs, with Maxent being one of the most popular methods. Maxent maximises the entropy of a probability distribution across sites as a function of predefined transformations of variables, called features. In contrast, neural networks and deep learning have emerged as a promising technique for automatic feature extraction from complex input variables. Arbitrarily complex transformations of input variables can be learned from the data efficiently through backpropagation and stochastic gradient descent (SGD). In this paper, we propose DeepMaxent, which harnesses neural networks to automatically learn shared features among species, using the maximum entropy principle. To do so, it employs a normalised Poisson loss where for each species, presence probabilities across sites are modelled by a neural network. We evaluate DeepMaxent on a benchmark dataset known for its spatial sampling biases, using PO data for calibration and presence-absence (PA) data for validation across six regions with different biological groups and covariates. Our results indicate that DeepMaxent performs better than Maxent and other leading SDMs across all regions and taxonomic groups. The method performs particularly well in regions of uneven sampling, demonstrating substantial potential to increase SDM performances. In particular, our approach yields more accurate predictions than traditional single-species models, which opens up new possibilities for methodological enhancement.
arxiv情報
著者 | Maxime Ryckewaert,Diego Marcos,Christophe Botella,Maximilien Servajean,Pierre Bonnet,Alexis Joly |
発行日 | 2025-02-03 15:21:07+00:00 |
arxivサイト | arxiv_id(pdf) |