Regularizing disparity estimation via multi task learning with structured light reconstruction

要約

3D 再構成は、手術の計画とガイダンスに役立つツールです。
ただし、正確な視差推定のための教師あり深層学習手法は、グラウンド トゥルース情報を含む大規模なデータセットに大きく依存しているため、利用可能な医療データが不足しているため、この分野での研究開発が妨げられています。
グラウンド トゥルースの必要性を完全に削減または排除できる自己監督など、監督に対する代替アプローチが検討されています。
ただし、提案された代替案は、監視されたセットアップから期待されるものに近いパフォーマンス機能を実証していません.
この作業は、この問題を軽減することを目的としています。
この論文では、構造化された光投影の学習を調査して、直接的な視差推定ネットワークの開発を強化します。
構造化された光のシーンへの投影を正確に学習し、暗黙的に視差を学習できることを初めて示しました。
第二に、\textcolor{black}{構造化された光と視差の共同トレーニングのためのマルチタスク学習 (MTL) フレームワークの使用を探ります。
構造化ライトを使用した MTL が視差トレーニングを改善することを示す結果を提示します。
モデル パラメータの数を増やすことなく。
私たちの MTL セットアップは、すべての検証テストでシングル タスク学習 (STL) ネットワークよりも優れていました。
特に、医療一般化テストでは、STL エラーは最高の MTL パフォーマンスの 1.4 倍悪いものでした。
MTL を使用する利点は、トレーニング データが限られている場合に強調されます。} 立体画像、視差マップ、および医療用ファントムと生体外組織の構造化光投影を含むデータセットが、仮想シーンと一緒に評価するために作成されました。
このデータセットは、将来公開される予定です。

要約(オリジナル)

3D reconstruction is a useful tool for surgical planning and guidance. However, the lack of available medical data stunts research and development in this field, as supervised deep learning methods for accurate disparity estimation rely heavily on large datasets containing ground truth information. Alternative approaches to supervision have been explored, such as self-supervision, which can reduce or remove entirely the need for ground truth. However, no proposed alternatives have demonstrated performance capabilities close to what would be expected from a supervised setup. This work aims to alleviate this issue. In this paper, we investigate the learning of structured light projections to enhance the development of direct disparity estimation networks. We show for the first time that it is possible to accurately learn the projection of structured light on a scene, implicitly learning disparity. Secondly, we \textcolor{black}{explore the use of a multi task learning (MTL) framework for the joint training of structured light and disparity. We present results which show that MTL with structured light improves disparity training; without increasing the number of model parameters. Our MTL setup outperformed the single task learning (STL) network in every validation test. Notably, in the medical generalisation test, the STL error was 1.4 times worse than that of the best MTL performance. The benefit of using MTL is emphasised when the training data is limited.} A dataset containing stereoscopic images, disparity maps and structured light projections on medical phantoms and ex vivo tissue was created for evaluation together with virtual scenes. This dataset will be made publicly available in the future.

arxiv情報

著者 Alistair Weld,Joao Cartucho,Chi Xu,Joseph Davids,Stamatia Giannarou
発行日 2023-01-19 15:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク