Predicting BVD Re-emergence in Irish Cattle From Highly Imbalanced Herd-Level Data Using Machine Learning Algorithms

要約

ウシウイルス下痢(BVD)はアイルランドでの根絶プログラムの成功の焦点であり、群れレベルの有病率は2013年の11.3%から2023年の0.2%にわずか0.2%に減少しました。
この研究では、非常に不均衡な群れレベルのデータを使用してBVD陽性の群れを予測するための、バイナリ分類や異常検出技術を含むさまざまな機械学習アルゴリズムのパフォーマンスを評価します。
さまざまなサンプルサイズとクラスの不均衡比にわたってモデルのパフォーマンスを評価するための広範なシミュレーション研究を実施し、再サンプリング、クラスの重み付け、適切な評価メトリック(感度、正の予測値、F1スコア、AUC値)を組み込みます。
ランダムフォレストとXgboostモデルは、2023年の群れステータスの実世界の予測を含むランダムフォレストモデルがシナリオ全体で最高の感度とAUCを達成し、250の陽性群のうち219を正しく識別しながら、ブランケットテスト戦略と比較して必要な群れの数を半分にしながら、シナリオ全体で一貫して他の方法を上回っていました。

要約(オリジナル)

Bovine Viral Diarrhoea (BVD) has been the focus of a successful eradication programme in Ireland, with the herd-level prevalence declining from 11.3% in 2013 to just 0.2% in 2023. As the country moves toward BVD freedom, the development of predictive models for targeted surveillance becomes increasingly important to mitigate the risk of disease re-emergence. In this study, we evaluate the performance of a range of machine learning algorithms, including binary classification and anomaly detection techniques, for predicting BVD-positive herds using highly imbalanced herd-level data. We conduct an extensive simulation study to assess model performance across varying sample sizes and class imbalance ratios, incorporating resampling, class weighting, and appropriate evaluation metrics (sensitivity, positive predictive value, F1-score and AUC values). Random forests and XGBoost models consistently outperformed other methods, with the random forest model achieving the highest sensitivity and AUC across scenarios, including real-world prediction of 2023 herd status, correctly identifying 219 of 250 positive herds while halving the number of herds that require compared to a blanket-testing strategy.

arxiv情報

著者 Niamh Mimnagh,Andrew Parnell,Conor McAloon,Jaden Carlson,Maria Guelbenzu,Jonas Brock,Damien Barrett,Guy McGrath,Jamie Tratalos,Rafael Moral
発行日 2025-04-17 17:33:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME パーマリンク