Scale-up Unlearnable Examples Learning with High-Performance Computing

要約

AI モデルの最近の進歩は、ユーザー インタラクションを保持するように構造化されており、これには機密の医療データが誤って含まれる可能性があります。
ヘルスケア分野では、特に放射線科医がオンライン プラットフォームでホストされている AI 駆動の診断ツールを使用する場合、明示的な同意なしに医療画像データが将来の AI トレーニングに再利用されるリスクがあり、ヘルスケア データの使用に関するプライバシーと知的財産に関する重大な懸念が浮き彫りになります。
これらのプライバシーの課題に対処するために、深層学習モデルでデータを学習できないようにすることを目的とした、学習不可能なサンプル (UE) として知られる新しいアプローチが導入されました。
Unlearnable Clustering (UC) と呼ばれるこの分野の著名な方法は、バッチ サイズが大きくなると UE のパフォーマンスが向上することを示していますが、以前は計算リソースによって制限されていました。
理論的には無制限のリソースで UE パフォーマンスの限界を押し上げるために、Summit スーパーコンピューター上の分散データ並列 (DDP) トレーニングを使用して、さまざまなデータセットにわたる UC 学習をスケールアップしました。
私たちの目標は、ハイ パフォーマンス コンピューティング (HPC) レベルで UE の有効性を調査し、不正な学習を防止し、データ セキュリティを強化することであり、特に UE の学習不能性に対するバッチ サイズの影響を調査することでした。
サミットの堅牢な計算能力を利用して、ペット、MedMNist、花、花などの多様なデータセットに対して広範な実験が行われました102。
私たちの調査結果では、バッチ サイズが大きすぎても小さすぎても、パフォーマンスが不安定になり、精度に影響を与える可能性があることが明らかになりました。
ただし、バッチ サイズと学習不可能性の関係はデータセットによって異なり、最適なデータ保護を実現するには、バッチ サイズに合わせた戦略が必要であることが浮き彫りになりました。
私たちの結果は、ディープ ラーニング アプリケーションにおける学習を防止し、データ セキュリティを確保するために、各データセットの特定の特性に基づいて適切なバッチ サイズを選択することが重要な役割を果たしていることを強調しています。

要約(オリジナル)

Recent advancements in AI models are structured to retain user interactions, which could inadvertently include sensitive healthcare data. In the healthcare field, particularly when radiologists use AI-driven diagnostic tools hosted on online platforms, there is a risk that medical imaging data may be repurposed for future AI training without explicit consent, spotlighting critical privacy and intellectual property concerns around healthcare data usage. Addressing these privacy challenges, a novel approach known as Unlearnable Examples (UEs) has been introduced, aiming to make data unlearnable to deep learning models. A prominent method within this area, called Unlearnable Clustering (UC), has shown improved UE performance with larger batch sizes but was previously limited by computational resources. To push the boundaries of UE performance with theoretically unlimited resources, we scaled up UC learning across various datasets using Distributed Data Parallel (DDP) training on the Summit supercomputer. Our goal was to examine UE efficacy at high-performance computing (HPC) levels to prevent unauthorized learning and enhance data security, particularly exploring the impact of batch size on UE’s unlearnability. Utilizing the robust computational capabilities of the Summit, extensive experiments were conducted on diverse datasets such as Pets, MedMNist, Flowers, and Flowers102. Our findings reveal that both overly large and overly small batch sizes can lead to performance instability and affect accuracy. However, the relationship between batch size and unlearnability varied across datasets, highlighting the necessity for tailored batch size strategies to achieve optimal data protection. Our results underscore the critical role of selecting appropriate batch sizes based on the specific characteristics of each dataset to prevent learning and ensure data security in deep learning applications.

arxiv情報

著者 Yanfan Zhu,Issac Lyngaas,Murali Gopalakrishnan Meena,Mary Ellen I. Koran,Bradley Malin,Daniel Moyer,Shunxing Bao,Anuj Kapadia,Xiao Wang,Bennett Landman,Yuankai Huo
発行日 2025-01-10 16:15:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク