Optimizing Latent Graph Representations of Surgical Scenes for Zero-Shot Domain Transfer

要約

目的: 深層学習の進歩により、手術ビデオ分析のための効果的なモデルが誕生しました。
ただし、これらのモデルは、手術のワークフロー、カメラのセットアップ、患者の人口統計の変化によって引き起こされる領域の変化により、医療センター全体で一般化できないことがよくあります。
最近、オブジェクト中心学習は、手術シーンの理解を改善し、手術ツールや解剖学的構造の視覚的および意味的特性を捕捉して解きほぐし、下流のタスクのパフォーマンスを向上させるための有望なアプローチとして浮上しています。
この研究では、腹腔鏡下胆嚢摘出術における安全性評価のクリティカルビューに焦点を当てて、オブジェクト中心のアプローチのマルチ中心のパフォーマンスベンチマークを実行し、目に見えない領域の一般化のための改善されたアプローチを提案します。
方法: ドメインの一般化のための 4 つのオブジェクト中心のアプローチを評価し、ベースラインのパフォーマンスを確立します。
次に、オブジェクト中心の表現のもつれが解けた性質を利用して、一連のアブレーションを通じてこれらの方法の 1 つを分析します (たとえば、下流の分類では視覚的特徴または意味的特徴のいずれかを無視します)。
最後に、これらのアブレーションの結果に基づいて、新しい解きほぐし損失関数を含む、領域一般化に特化した最適化された手法 LG-DG を開発します。
結果: 最適化されたアプローチである LG-DG は、最良のベースライン アプローチと比較して 9.28% の改善を達成しました。
より広く言えば、オブジェクト中心のアプローチは、表現学習に対するモジュール型アプローチのおかげで、領域の一般化に非常に効果的であることを示します。
結論: 目に見えない領域の一般化のためのオブジェクト中心のメソッドの使用を調査し、パフォーマンスに重要なメソッドに依存しない要因を特定し、既存のメソッドを大幅に上回る最適化されたアプローチを提示します。

要約(オリジナル)

Purpose: Advances in deep learning have resulted in effective models for surgical video analysis; however, these models often fail to generalize across medical centers due to domain shift caused by variations in surgical workflow, camera setups, and patient demographics. Recently, object-centric learning has emerged as a promising approach for improved surgical scene understanding, capturing and disentangling visual and semantic properties of surgical tools and anatomy to improve downstream task performance. In this work, we conduct a multi-centric performance benchmark of object-centric approaches, focusing on Critical View of Safety assessment in laparoscopic cholecystectomy, then propose an improved approach for unseen domain generalization. Methods: We evaluate four object-centric approaches for domain generalization, establishing baseline performance. Next, leveraging the disentangled nature of object-centric representations, we dissect one of these methods through a series of ablations (e.g. ignoring either visual or semantic features for downstream classification). Finally, based on the results of these ablations, we develop an optimized method specifically tailored for domain generalization, LG-DG, that includes a novel disentanglement loss function. Results: Our optimized approach, LG-DG, achieves an improvement of 9.28% over the best baseline approach. More broadly, we show that object-centric approaches are highly effective for domain generalization thanks to their modular approach to representation learning. Conclusion: We investigate the use of object-centric methods for unseen domain generalization, identify method-agnostic factors critical for performance, and present an optimized approach that substantially outperforms existing methods.

arxiv情報

著者 Siddhant Satyanaik,Aditya Murali,Deepak Alapatt,Xin Wang,Pietro Mascagni,Nicolas Padoy
発行日 2024-03-11 17:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク