EndoDAC: Efficient Adapting Foundation Model for Self-Supervised Depth Estimation from Any Endoscopic Camera

要約

深さの推定は、ナビゲーション、表面再構築、拡張現実の視覚化など、内視鏡手術内のさまざまなタスクで重要な役割を果たします。
深度推定を含む視覚タスクにおける基礎モデルの重要な成果にもかかわらず、それらを医療分野に直接適用すると、最適なパフォーマンスが得られないことがよくあります。
これは、これらのモデルを内視鏡による深度推定に適応させるための効率的な適応方法の必要性を強調しています。
我々は、基礎モデルを内視鏡シーンに適応させる効率的な自己監視型深度推定フレームワークである内視鏡深度任意カメラ (EndoDAC) を提案します。
具体的には、Dynamic Vector-Based Low-Rank Adaptation (DV-LoRA) を開発し、Convolutional Neck ブロックを採用して、非常に少ないトレーニング可能なパラメーターを利用して基礎モデルを外科領域に合わせて調整します。
カメラ情報が常にアクセスできるとは限らないことを考慮して、ポーズ エンコーダーを使用してカメラの固有機能を推定する自己教師あり適応戦略も導入します。
当社のフレームワークは、あらゆるカメラからの単眼手術ビデオのみでトレーニングできるため、トレーニング コストを最小限に抑えることができます。
実験では、トレーニング エポックが少なく、グラウンド トゥルース カメラの組み込み機能が認識されていない場合でも、私たちのアプローチが優れたパフォーマンスを獲得できることが実証されています。
コードは https://github.com/BileiCui/EndoDAC で入手できます。

要約(オリジナル)

Depth estimation plays a crucial role in various tasks within endoscopic surgery, including navigation, surface reconstruction, and augmented reality visualization. Despite the significant achievements of foundation models in vision tasks, including depth estimation, their direct application to the medical domain often results in suboptimal performance. This highlights the need for efficient adaptation methods to adapt these models to endoscopic depth estimation. We propose Endoscopic Depth Any Camera (EndoDAC) which is an efficient self-supervised depth estimation framework that adapts foundation models to endoscopic scenes. Specifically, we develop the Dynamic Vector-Based Low-Rank Adaptation (DV-LoRA) and employ Convolutional Neck blocks to tailor the foundational model to the surgical domain, utilizing remarkably few trainable parameters. Given that camera information is not always accessible, we also introduce a self-supervised adaptation strategy that estimates camera intrinsics using the pose encoder. Our framework is capable of being trained solely on monocular surgical videos from any camera, ensuring minimal training costs. Experiments demonstrate that our approach obtains superior performance even with fewer training epochs and unaware of the ground truth camera intrinsics. Code is available at https://github.com/BeileiCui/EndoDAC.

arxiv情報

著者 Beilei Cui,Mobarakol Islam,Long Bai,An Wang,Hongliang Ren
発行日 2024-05-14 14:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク