Surgical-DINO: Adapter Learning of Foundation Model for Depth Estimation in Endoscopic Surgery

要約

目的: ロボット手術における深さの推定は、3D 再構成、手術ナビゲーション、拡張現実の視覚化において不可欠です。
基礎モデルは、深度推定 (DINOv2 など) を含む多くの視覚タスクで優れたパフォーマンスを示しますが、最近の研究では、医療および外科領域固有のアプリケーションではその限界が観察されました。
この研究では、手術深度推定のための基礎モデルの低ランク適応 (LoRA) を示します。
方法: 我々は、Surgical-DINO と呼ばれる基礎モデルベースの深度推定方法を設計します。これは、内視鏡手術における深度推定のための DINOv2 の低ランク適応です。
従来の微調整ではなく、手術固有のドメイン知識に適応するために、LoRA レイヤーを構築して DINO に統合します。
トレーニング中は、優れた視覚表現能力を示す DINO 画像エンコーダーをフリーズし、手術シーンの特徴を統合するために LoRA レイヤーと深度デコーダーのみを最適化します。
結果: 私たちのモデルは、ダ ヴィンチ Xi 内視鏡手術から収集された SCARED の MICCAI チャレンジ データセットで広範囲に検証されています。
私たちは、内視鏡による深度推定タスクにおいて、Surgical-DINO がすべての最先端モデルよりも大幅に優れていることを経験的に示しています。
アブレーション研究による分析により、LoRA レイヤーと適応の顕著な効果の証拠が示されました。
結論: Surgical-DINO は、深度推定のための外科領域への基礎モデルの適応に成功した点に光を当てました。
この結果には、コンピューター ビジョン データセットの事前トレーニングされた重みに対するゼロショット予測や単純な微調整だけでは、外科領域で基礎モデルを直接使用するには十分ではないという明らかな証拠があります。
コードは https://github.com/BileiCui/SurgicalDINO で入手できます。

要約(オリジナル)

Purpose: Depth estimation in robotic surgery is vital in 3D reconstruction, surgical navigation and augmented reality visualization. Although the foundation model exhibits outstanding performance in many vision tasks, including depth estimation (e.g., DINOv2), recent works observed its limitations in medical and surgical domain-specific applications. This work presents a low-ranked adaptation (LoRA) of the foundation model for surgical depth estimation. Methods: We design a foundation model-based depth estimation method, referred to as Surgical-DINO, a low-rank adaptation of the DINOv2 for depth estimation in endoscopic surgery. We build LoRA layers and integrate them into DINO to adapt with surgery-specific domain knowledge instead of conventional fine-tuning. During training, we freeze the DINO image encoder, which shows excellent visual representation capacity, and only optimize the LoRA layers and depth decoder to integrate features from the surgical scene. Results: Our model is extensively validated on a MICCAI challenge dataset of SCARED, which is collected from da Vinci Xi endoscope surgery. We empirically show that Surgical-DINO significantly outperforms all the state-of-the-art models in endoscopic depth estimation tasks. The analysis with ablation studies has shown evidence of the remarkable effect of our LoRA layers and adaptation. Conclusion: Surgical-DINO shed some light on the successful adaptation of the foundation models into the surgical domain for depth estimation. There is clear evidence in the results that zero-shot prediction on pre-trained weights in computer vision datasets or naive fine-tuning is not sufficient to use the foundation model in the surgical domain directly. Code is available at https://github.com/BeileiCui/SurgicalDINO.

arxiv情報

著者 Cui Beilei,Islam Mobarakol,Bai Long,Ren Hongliang
発行日 2024-01-11 16:22:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク