要約
目的:この研究では、データの共有制限に対処し、最小限の侵襲的手術のためのデータ転送なしで共同モデルトレーニングを可能にするために、フェデレーション学習を使用して基礎モデルのトレーニングを調査します。
方法:Endovit研究に触発されて、マスクされた自動エンコーダーを連邦学習のために適応させ、適応的なシャープネス認識最小化(FedSAM)と確率的重量平均(SWA)で強化します。
私たちのモデルは、ENDO700Kデータセットコレクションで前提とされており、その後、セマンティックセグメンテーション、アクショントリプレット認識、外科相認識などのタスクについて微調整され、評価されます。
結果:我々の調査結果は、適応型FedSAMをフェデレートMAEアプローチに統合すると、前登録が改善され、パッチごとの再建損失が減少することが示されています。
外科的下流タスクにおけるFL-Endovitの適用は、Cen-Endovitに匹敵するパフォーマンスをもたらします。
さらに、FL-Endovitは、データが制限されている場合の外科シーンのセグメンテーションにおいてCen-Endovitよりも利点を示し、大規模なデータセットが使用されている場合は、トリプレット認識を示しています。
結論:これらの調査結果は、外科的基礎モデルのプライバシーを提供するトレーニングのための連邦学習の可能性を強調し、外科的データサイエンスのための堅牢で一般化可能なソリューションを提供します。
効果的なコラボレーションには、機関全体の固有のデータ不均一性に対応できるFedsamの統合など、フェデレート学習方法を適応させる必要があります。
将来的には、ビデオベースのモデルでFLを探索することで、実際の外科的環境に不可欠な時空間的ダイナミクスを組み込むことにより、これらの機能を強化する可能性があります。
要約(オリジナル)
Purpose: In this study, we investigate the training of foundation models using federated learning to address data-sharing limitations and enable collaborative model training without data transfer for minimally invasive surgery. Methods: Inspired by the EndoViT study, we adapt the Masked Autoencoder for federated learning, enhancing it with adaptive Sharpness-Aware Minimization (FedSAM) and Stochastic Weight Averaging (SWA). Our model is pretrained on the Endo700k dataset collection and later fine-tuned and evaluated for tasks such as Semantic Segmentation, Action Triplet Recognition, and Surgical Phase Recognition. Results: Our findings demonstrate that integrating adaptive FedSAM into the federated MAE approach improves pretraining, leading to a reduction in reconstruction loss per patch. The application of FL-EndoViT in surgical downstream tasks results in performance comparable to CEN-EndoViT. Furthermore, FL-EndoViT exhibits advantages over CEN-EndoViT in surgical scene segmentation when data is limited and in action triplet recognition when large datasets are used. Conclusion: These findings highlight the potential of federated learning for privacy-preserving training of surgical foundation models, offering a robust and generalizable solution for surgical data science. Effective collaboration requires adapting federated learning methods, such as the integration of FedSAM, which can accommodate the inherent data heterogeneity across institutions. In future, exploring FL in video-based models may enhance these capabilities by incorporating spatiotemporal dynamics crucial for real-world surgical environments.
arxiv情報
著者 | Max Kirchner,Alexander C. Jenke,Sebastian Bodenstedt,Fiona R. Kolbinger,Oliver L. Saldanha,Jakob N. Kather,Martin Wagner,Stefanie Speidel |
発行日 | 2025-05-08 12:46:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google