Knowledge-Guided Data-Centric AI in Healthcare: Progress, Shortcomings, and Future Directions



– 深層学習の成功は、特定の概念や意味の幅広い例をカバーする大量のトレーニングデータの入手可能性によるものである。
– 医療の分野では、特定の病気に関する多様なトレーニングデータがあることは、正確に病気を予測することができるモデルの開発につながることができる。
– しかし、高品質な注釈付きデータが不足しているため、画像ベースの診断の進歩があまりない。
– 本記事では、利用可能なデータが限られている場合にデータ中心のアプローチを使用してデータ表現の品質を改善することの重要性について説明する。
– この「小規模データ」の問題を解決するため、データ拡張、転移学習、フェデレーティッド学習、GAN(生成対抗的ネットワーク)の4つのトレーニングデータ生成および集約の方法について説明する。
– さらに、ドメイン知識をトレーニングデータ生成プロセスに組み込むための知識に基づくGANの使用を提案する。
– 最近の大規模事前学習言語モデルの進歩により、高品質な知識の取得が可能であり、知識に基づく生成手法の効果を向上させることができると信じている。


The success of deep learning is largely due to the availability of large amounts of training data that cover a wide range of examples of a particular concept or meaning. In the field of medicine, having a diverse set of training data on a particular disease can lead to the development of a model that is able to accurately predict the disease. However, despite the potential benefits, there have not been significant advances in image-based diagnosis due to a lack of high-quality annotated data. This article highlights the importance of using a data-centric approach to improve the quality of data representations, particularly in cases where the available data is limited. To address this ‘small-data’ issue, we discuss four methods for generating and aggregating training data: data augmentation, transfer learning, federated learning, and GANs (generative adversarial networks). We also propose the use of knowledge-guided GANs to incorporate domain knowledge in the training data generation process. With the recent progress in large pre-trained language models, we believe it is possible to acquire high-quality knowledge that can be used to improve the effectiveness of knowledge-guided generative methods.


著者 Edward Y. Chang
発行日 2023-04-30 06:10:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.LG, I.2.7 パーマリンク