A Hybrid Deep Learning-based Approach for Optimal Genotype by Environment Selection

要約

正確な作物収量の予測は、農業慣行を改善し、さまざまな気候における作物の回復力を確保するために不可欠です。
特にさまざまな作物の品種について、生育期全体にわたる気象データを統合することは、気候変動に直面したときの適応性を理解するために重要です。
MLCAS2021 作物収量予測チャレンジでは、93,028 のトレーニング レコードで構成されるデータセットを利用して、13 年間 (2003 ~ 2015 年) 米国の 28 州とカナダの州の 159 か所をカバーする 10,337 のテスト レコードの収量を予測しました。
このデータセットには、5,838 の異なる遺伝子型に関する詳細と、214 日間の生育期の毎日の気象データが含まれており、包括的な分析が可能になりました。
優勝チームの 1 つとして、私たちは 2 つの新しい畳み込みニューラル ネットワーク (CNN) アーキテクチャを開発しました。CNN と完全接続ネットワークを組み合わせた CNN-DNN モデルと、気象変数用の LSTM レイヤーを追加した CNN-LSTM-DNN モデルです。

一般化アンサンブル法 (GEM) を活用して、最適なモデルの重みを決定し、ベースライン モデルと比較して優れたパフォーマンスを実現しました。
GEM モデルは、テスト データで評価した場合、より低い RMSE (5.55% から 39.88%)、MAE の減少 (5.34% から 43.76%)、より高い相関係数 (1.1% から 10.79%) を達成しました。
CNN-DNN モデルを適用して、さまざまな場所や気象条件で最もパフォーマンスの高い遺伝子型を特定し、気象変数に基づく遺伝子型の選択を支援しました。
当社のデータ駆動型アプローチは、テスト期間が限られているシナリオに価値があります。
さらに、RMSE 変化を使用した特徴重要度分析では、気象変数 MDNI と AP の重要性とともに、場所、MG、年、遺伝子型の重要性が強調されました。

要約(オリジナル)

Precise crop yield prediction is essential for improving agricultural practices and ensuring crop resilience in varying climates. Integrating weather data across the growing season, especially for different crop varieties, is crucial for understanding their adaptability in the face of climate change. In the MLCAS2021 Crop Yield Prediction Challenge, we utilized a dataset comprising 93,028 training records to forecast yields for 10,337 test records, covering 159 locations across 28 U.S. states and Canadian provinces over 13 years (2003-2015). This dataset included details on 5,838 distinct genotypes and daily weather data for a 214-day growing season, enabling comprehensive analysis. As one of the winning teams, we developed two novel convolutional neural network (CNN) architectures: the CNN-DNN model, combining CNN and fully-connected networks, and the CNN-LSTM-DNN model, with an added LSTM layer for weather variables. Leveraging the Generalized Ensemble Method (GEM), we determined optimal model weights, resulting in superior performance compared to baseline models. The GEM model achieved lower RMSE (5.55% to 39.88%), reduced MAE (5.34% to 43.76%), and higher correlation coefficients (1.1% to 10.79%) when evaluated on test data. We applied the CNN-DNN model to identify top-performing genotypes for various locations and weather conditions, aiding genotype selection based on weather variables. Our data-driven approach is valuable for scenarios with limited testing years. Additionally, a feature importance analysis using RMSE change highlighted the significance of location, MG, year, and genotype, along with the importance of weather variables MDNI and AP.

arxiv情報

著者 Zahra Khalilzadeh,Motahareh Kashanian,Saeed Khaki,Lizhi Wang
発行日 2023-09-22 17:31:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM, stat.ML パーマリンク