DARES: Depth Anything in Robotic Endoscopic Surgery with Self-supervised Vector-LoRA of the Foundation Model

要約

ロボット支援手術 (RAS) は、3D 再構築と視覚化のための正確な深度推定に依存しています。
Depth Anything Models (DAM) のような基礎モデルは有望ですが、それらを手術に直接適用すると、最適とはいえない結果が得られることがよくあります。
限られた手術データを完全に微調整すると、過剰適合や致命的な忘却が発生し、モデルの堅牢性と一般化が損なわれる可能性があります。
低ランク適応 (LoRA) はいくつかの適応問題に対処しますが、その均一なパラメーター分布は固有の特徴階層を無視します。つまり、より一般的な特徴を学習する初期の層は、後の層よりも多くのパラメーターを必要とします。
この問題に取り組むために、DAM V2 上で新しい適応技術である Vector Low-Rank Adaptation (Vector-LoRA) を採用し、自己監視型単眼深度推定を実行する新しいアプローチである Depth Anything in Robotic Endoscope Surgery (DARES) を導入します。
RASのシーン。
学習効率を高めるために、初期の層でより多くのパラメータを統合し、後の層で徐々にパラメータを減らすことにより、Vector-LoRA を導入します。
また、マルチスケール SSIM 誤差に基づいて再投影損失を設計し、基礎モデルを手術環境の特定の要件に合わせて調整することで奥行き知覚を強化します。
提案された方法は SCARED データセットで検証され、最新の自己教師あり単眼深度推定技術よりも優れたパフォーマンスを示し、絶対相対誤差メトリクスで 13.3% の改善を達成しました。
コードと事前トレーニングされた重みは https://github.com/mobarakol/DARES で入手できます。

要約(オリジナル)

Robotic-assisted surgery (RAS) relies on accurate depth estimation for 3D reconstruction and visualization. While foundation models like Depth Anything Models (DAM) show promise, directly applying them to surgery often yields suboptimal results. Fully fine-tuning on limited surgical data can cause overfitting and catastrophic forgetting, compromising model robustness and generalization. Although Low-Rank Adaptation (LoRA) addresses some adaptation issues, its uniform parameter distribution neglects the inherent feature hierarchy, where earlier layers, learning more general features, require more parameters than later ones. To tackle this issue, we introduce Depth Anything in Robotic Endoscopic Surgery (DARES), a novel approach that employs a new adaptation technique, Vector Low-Rank Adaptation (Vector-LoRA) on the DAM V2 to perform self-supervised monocular depth estimation in RAS scenes. To enhance learning efficiency, we introduce Vector-LoRA by integrating more parameters in earlier layers and gradually decreasing parameters in later layers. We also design a reprojection loss based on the multi-scale SSIM error to enhance depth perception by better tailoring the foundation model to the specific requirements of the surgical environment. The proposed method is validated on the SCARED dataset and demonstrates superior performance over recent state-of-the-art self-supervised monocular depth estimation techniques, achieving an improvement of 13.3% in the absolute relative error metric. The code and pre-trained weights are available at https://github.com/mobarakol/DARES.

arxiv情報

著者 Mona Sheikh Zeinoddin,Chiara Lena,Jiongqi Qu,Luca Carlini,Mattia Magro,Seunghoi Kim,Elena De Momi,Sophia Bano,Matthew Grech-Sollars,Evangelos Mazomenos,Daniel C. Alexander,Danail Stoyanov,Matthew J. Clarkson,Mobarakol Islam
発行日 2024-08-30 17:35:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク