要約
大規模なデータセットで事前トレーニングされた基盤モデルは、前例のない一般化可能性を達成しました。
しかし、事前トレーニングにこのような膨大な量のデータを組み込み、膨大な計算リソースを消費する必要は本当にあるのでしょうか?
このペーパーでは、最も効果的な方法でデータを使用して基礎モデルを事前トレーニングすることを目的とした、データ効率の高い学習を紹介します。
これには、データの量ではなく質に焦点を当て、トレーニングに使用されるデータが高い情報価値を持つようにする戦略が含まれます。
データ効率の高い学習は、基礎モデルのトレーニングの高速化、計算コストの削減、データ ストレージの節約において重要な役割を果たします。近年の医療データの量は多くの人々の予想を超えて増加しているため、これは非常に重要です。
しかし、標準や包括的なベンチマークが不足しているため、医療データに効果的な学習に関する研究はほとんど行われていません。
このギャップに対処するために、私たちの論文では、特に医療分野におけるデータ効率の高い学習を評価するための包括的なベンチマークを紹介します。
このベンチマークには、31 の医療センターからの数百万のデータ サンプルを含むデータセット (DataDEL)、比較のためのベースライン手法 (MedDEL)、およびデータ効率の高い学習パフォーマンスを客観的に測定するための新しい評価指標 (NormDEL) が含まれています。
私たちの広範な実験結果は、ベースライン MedDEL がわずか 5% のデータで元の大規模データセットと同等のパフォーマンスを達成できることを示しています。
このようなオープンデータに効果的な学習ベンチマークを確立することは、データの効率的な使用を促進し、共同でのブレークスルーを促進し、費用対効果が高く、スケーラブルで影響力のある医療ソリューションの開発を促進するため、医療基礎モデル研究コミュニティにとって非常に重要です。
要約(オリジナル)
Foundation models, pre-trained on massive datasets, have achieved unprecedented generalizability. However, is it truly necessary to involve such vast amounts of data in pre-training, consuming extensive computational resources? This paper introduces data-effective learning, aiming to use data in the most impactful way to pre-train foundation models. This involves strategies that focus on data quality rather than quantity, ensuring the data used for training has high informational value. Data-effective learning plays a profound role in accelerating foundation model training, reducing computational costs, and saving data storage, which is very important as the volume of medical data in recent years has grown beyond many people’s expectations. However, due to the lack of standards and comprehensive benchmarks, research on medical data-effective learning is poorly studied. To address this gap, our paper introduces a comprehensive benchmark specifically for evaluating data-effective learning in the medical field. This benchmark includes a dataset with millions of data samples from 31 medical centers (DataDEL), a baseline method for comparison (MedDEL), and a new evaluation metric (NormDEL) to objectively measure data-effective learning performance. Our extensive experimental results show the baseline MedDEL can achieve performance comparable to the original large dataset with only 5% of the data. Establishing such an open data-effective learning benchmark is crucial for the medical foundation model research community because it facilitates efficient data use, promotes collaborative breakthroughs, and fosters the development of cost-effective, scalable, and impactful healthcare solutions.
arxiv情報
著者 | Wenxuan Yang,Weimin Tan,Yuqi Sun,Bo Yan |
発行日 | 2024-08-16 12:46:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google