Machine learning in wastewater treatment: insights from modelling a pilot denitrification reactor

要約

下水処理プラントは、その社会的重要性とデータの可用性の高さから、機械学習アプリケーションの有望な候補としてますます認識されています。
しかし、その多様な設計、動作条件、影響特性により、単純な自動化が妨げられます。
この研究では、ノルウェーの Veas 処理施設のパイロット反応器からのデータを使用して、機械学習を使用して生物学的硝酸塩 ($\mathrm{NO_3^-}$) を分子状窒素 ($\mathrm{
N_2}$) \textit{脱窒} として知られる生物地球化学プロセス。
私たちのアプローチは、予測精度のみに焦点を当てるのではなく、廃水処理の効果的なデータ駆動型モデリングのための基本的な要件を理解することを優先します。
具体的には、どのプロセスパラメータが最も重要であるか、必要なデータの量と質、データを効果的に構造化する方法、モデルに必要な特性を特定することを目指しています。
非線形モデルはトレーニング データ セットと検証データ セットで最高のパフォーマンスを発揮することがわかり、非線形関係を学習する必要があることを示していますが、線形モデルは、後から表示される目に見えないテスト データによりよく伝達されます。
水温を測定する変数は、トレーニング データとテスト データの間の分布に大きな変化があるため、モデルに特に悪影響を及ぼします。
したがって、堅牢な機械学習モデルを学習するには複数年分のデータが必要であると結論付けています。
この研究は、特に北部地域が直面する気候変動という文脈において、基本的な要素に取り組むことで、廃水処理のための機械学習に対する、より構造化され、カスタマイズされたアプローチの基礎を築きます。
私たちは、論文の結果を生成するために使用されたデータとコードの両方を公開します。

要約(オリジナル)

Wastewater treatment plants are increasingly recognized as promising candidates for machine learning applications, due to their societal importance and high availability of data. However, their varied designs, operational conditions, and influent characteristics hinder straightforward automation. In this study, we use data from a pilot reactor at the Veas treatment facility in Norway to explore how machine learning can be used to optimize biological nitrate ($\mathrm{NO_3^-}$) reduction to molecular nitrogen ($\mathrm{N_2}$) in the biogeochemical process known as \textit{denitrification}. Rather than focusing solely on predictive accuracy, our approach prioritizes understanding the foundational requirements for effective data-driven modelling of wastewater treatment. Specifically, we aim to identify which process parameters are most critical, the necessary data quantity and quality, how to structure data effectively, and what properties are required by the models. We find that nonlinear models perform best on the training and validation data sets, indicating nonlinear relationships to be learned, but linear models transfer better to the unseen test data, which comes later in time. The variable measuring the water temperature has a particularly detrimental effect on the models, owing to a significant change in distributions between training and test data. We therefore conclude that multiple years of data is necessary to learn robust machine learning models. By addressing foundational elements, particularly in the context of the climatic variability faced by northern regions, this work lays the groundwork for a more structured and tailored approach to machine learning for wastewater treatment. We share publicly both the data and code used to produce the results in the paper.

arxiv情報

著者 Eivind Bøhn,Sølve Eidnes,Kjell Rune Jonassen
発行日 2024-12-18 16:49:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク