Ocean Data Quality Assessment through Outlier Detection-enhanced Active Learning

要約

海洋と気候の研究は、Argo、GLOSS、EMSO などの世界的な海洋観測イニシアチブの恩恵を受けています。
海洋プロファイリング専用の Argo ネットワークは、膨大な量の観測データを生成します。
ただし、センサーの誤動作や送信エラーによるデータ品質の問題には、厳格な品質評価が必要です。
機械学習を含む既存の方法では、ラベル付けされたデータが限られており、データセットが不均衡であるため、不十分です。
これらの課題に対処するために、私たちは海洋データの品質評価のための ODEAL フレームワークを提案します。AL を採用して品質評価ワークフローにおける人間の専門家の作業負荷を軽減し、外れ値検出アルゴリズムを活用して効果的なモデルの初期化を行います。
また、AL クエリ戦略の有効性や初期セット構築アプローチなど、提案手法についての洞察を得るために、5 つの大規模で現実的な Argo データセットに対して広範な実験を実施しました。
結果は、ランダム サンプリングと比較して、不確実性ベースのクエリ戦略により、私たちのフレームワークが品質評価効率を最大 465.5% 向上させ、外れ値検出器で構築された初期セットを使用して全体のアノテーション コストを最大 76.9% 最小化することを示唆しています。

要約(オリジナル)

Ocean and climate research benefits from global ocean observation initiatives such as Argo, GLOSS, and EMSO. The Argo network, dedicated to ocean profiling, generates a vast volume of observatory data. However, data quality issues from sensor malfunctions and transmission errors necessitate stringent quality assessment. Existing methods, including machine learning, fall short due to limited labeled data and imbalanced datasets. To address these challenges, we propose an ODEAL framework for ocean data quality assessment, employing AL to reduce human experts’ workload in the quality assessment workflow and leveraging outlier detection algorithms for effective model initialization. We also conduct extensive experiments on five large-scale realistic Argo datasets to gain insights into our proposed method, including the effectiveness of AL query strategies and the initial set construction approach. The results suggest that our framework enhances quality assessment efficiency by up to 465.5% with the uncertainty-based query strategy compared to random sampling and minimizes overall annotation costs by up to 76.9% using the initial set built with outlier detectors.

arxiv情報

著者 Na Li,Yiyang Qi,Ruyue Xin,Zhiming Zhao
発行日 2023-12-17 20:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク