要約
深層学習モデルは、さまざまな医療監視アプリケーションで大きな期待を集めています。
ただし、グラウンド トゥルースを直接収集するにはコストと時間がかかることが多いため、高品質 (ゴールド スタンダード) ラベルが付いたほとんどの医療データセットは小規模です。
その結果、小規模なデータセットで開発および検証されたモデルは、多くの場合、過剰適合に悩まされ、目に見えないシナリオにうまく一般化できません。
同時に、現代のウェアラブルを利用し、グラウンドトゥルースの検証が行われていない近似的な手法によって注釈が付けられた、不正確な(シルバースタンダードの)ラベル付きデータが大量に出現し始めています。
ただし、測定の違いにより、このデータにはラベル分布の大きな変化が見られ、これがドメイン適応の使用の動機となります。
この目的を達成するために、教師なしドメイン適応と多重識別子の敵対的トレーニングという 2 つの主要なコンポーネントを備えた手法である UDAMA を導入します。この方法では、シルバースタンダード データで事前トレーニングし、ゴールドスタンダード データと 2 つのドメイン識別子を使用した敵対的適応を採用します。
特に、心肺フィットネス (CRF) 予測に UDAMA を適用することで、UDAMA の実用的な可能性を示します。
CRF は代謝性疾患と死亡率の重要な決定要因であり、ラベルにさまざまなレベルのノイズ (ゴールドスタンダードとシルバースタンダード) が提示されるため、正確な予測モデルを確立することが困難になります。
私たちの結果は、さまざまなラベル シフト設定における分布シフトを緩和することにより、有望なパフォーマンスを示しています。
さらに、2 つの自由生活コホート研究 (Fenland と BBVS) のデータを使用することで、UDAMA が競合転移学習や最先端のドメイン適応モデルと比較して一貫して最大 12% 優れていることを示し、活用への道を開く
大規模な適応度推定を向上させるためのノイズの多いラベル付きデータ。
要約(オリジナル)
Deep learning models have shown great promise in various healthcare monitoring applications. However, most healthcare datasets with high-quality (gold-standard) labels are small-scale, as directly collecting ground truth is often costly and time-consuming. As a result, models developed and validated on small-scale datasets often suffer from overfitting and do not generalize well to unseen scenarios. At the same time, large amounts of imprecise (silver-standard) labeled data, annotated by approximate methods with the help of modern wearables and in the absence of ground truth validation, are starting to emerge. However, due to measurement differences, this data displays significant label distribution shifts, which motivates the use of domain adaptation. To this end, we introduce UDAMA, a method with two key components: Unsupervised Domain Adaptation and Multidiscriminator Adversarial Training, where we pre-train on the silver-standard data and employ adversarial adaptation with the gold-standard data along with two domain discriminators. In particular, we showcase the practical potential of UDAMA by applying it to Cardio-respiratory fitness (CRF) prediction. CRF is a crucial determinant of metabolic disease and mortality, and it presents labels with various levels of noise (goldand silver-standard), making it challenging to establish an accurate prediction model. Our results show promising performance by alleviating distribution shifts in various label shift settings. Additionally, by using data from two free-living cohort studies (Fenland and BBVS), we show that UDAMA consistently outperforms up to 12% compared to competitive transfer learning and state-of-the-art domain adaptation models, paving the way for leveraging noisy labeled data to improve fitness estimation at scale.
arxiv情報
著者 | Yu Wu,Dimitris Spathis,Hong Jia,Ignacio Perez-Pozuelo,Tomas Gonzales,Soren Brage,Nicholas Wareham,Cecilia Mascolo |
発行日 | 2023-07-31 13:31:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google