EndoGaussian: Real-time Gaussian Splatting for Dynamic Endoscopic Scene Reconstruction

要約

内視鏡ビデオから変形可能な組織を再構成することは、多くの下流の外科用途において不可欠です。
しかし、既存の方法ではレンダリング速度が遅いという問題があり、実用化が大きく制限されています。
この論文では、3D ガウス スプラッティング (3DGS) に基づいて構築されたリアルタイム内視鏡シーン再構成フレームワークである EndoGaussian を紹介します。
効率的なガウス表現と高度に最適化されたレンダリング エンジンを統合することにより、当社のフレームワークはレンダリング速度をリアルタイム レベルまで大幅に向上させます。
3DGS を内視鏡シーンに適応させるために、自明ではないガウス初期化と組織変形問題をそれぞれ処理する、ホリスティック ガウス初期化 (HGI) と時空間ガウス トラッキング (SGT) という 2 つの戦略を提案します。
HGI では、最新の深度推定モデルを活用して、入力された両眼/単眼画像シーケンスの深度マップを予測します。これに基づいて、どのピクセルが再投影され、総合的な初期化のために結合されます。
SPT では、変形フィールドを使用して表面ダイナミクスをモデル化することを提案します。変形フィールドは、効率的なエンコード ボクセルと軽量の変形デコーダで構成され、わずかなトレーニングとレンダリングの負担でガウス トラッキングを可能にします。
公開データセットでの実験では、レンダリング速度の向上 (リアルタイム 195 FPS、100$\times$ のゲイン)、レンダリング品質の向上 (37.848 PSNR)、トレーニング オーバーヘッドの削減 (2 分以内) など、多くの面で以前の SOTA に対する有効性を実証しています。
シーン)、術中手術への応用に大きな期待が寄せられています。
コードは \url{https://yifliu3.github.io/EndoGaussian/} から入手できます。

要約(オリジナル)

Reconstructing deformable tissues from endoscopic videos is essential in many downstream surgical applications. However, existing methods suffer from slow rendering speed, greatly limiting their practical use. In this paper, we introduce EndoGaussian, a real-time endoscopic scene reconstruction framework built on 3D Gaussian Splatting (3DGS). By integrating the efficient Gaussian representation and highly-optimized rendering engine, our framework significantly boosts the rendering speed to a real-time level. To adapt 3DGS for endoscopic scenes, we propose two strategies, Holistic Gaussian Initialization (HGI) and Spatio-temporal Gaussian Tracking (SGT), to handle the non-trivial Gaussian initialization and tissue deformation problems, respectively. In HGI, we leverage recent depth estimation models to predict depth maps of input binocular/monocular image sequences, based on which pixels are re-projected and combined for holistic initialization. In SPT, we propose to model surface dynamics using a deformation field, which is composed of an efficient encoding voxel and a lightweight deformation decoder, allowing for Gaussian tracking with minor training and rendering burden. Experiments on public datasets demonstrate our efficacy against prior SOTAs in many aspects, including better rendering speed (195 FPS real-time, 100$\times$ gain), better rendering quality (37.848 PSNR), and less training overhead (within 2 min/scene), showing significant promise for intraoperative surgery applications. Code is available at: \url{https://yifliu3.github.io/EndoGaussian/}.

arxiv情報

著者 Yifan Liu,Chenxin Li,Chen Yang,Yixuan Yuan
発行日 2024-02-13 13:40:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク