要約
深層学習ベースの手法は、さまざまな手術シーンの理解タスクにおいて優れたパフォーマンスを発揮しますが、さまざまな原因により、現実世界の手術アプリケーションへの展開が妨げられることがよくあります。
特に、データ収集、アノテーション、施設と患者の間でのドメインの移行が最も一般的な障害となります。
この研究では、最小限のソース画像を効率的に活用して合成手術器具セグメンテーション データセットを生成し、目に見えない現実のドメインで優れた汎化パフォーマンスを達成することで、データ関連の問題を軽減します。
具体的には、我々のフレームワークでは、背景組織画像 1 つだけと、各前景器具の最大 3 つの画像がシード画像として取得されます。
これらのソース画像は広範囲に変換され、前景画像プールと背景画像プールを構築するために使用されます。そこから、ランダムにサンプリングされた組織画像と器具画像が複数のブレンディング技術を使用して合成され、新しい手術シーン画像が生成されます。
さらに、トレーニング データをさらに多様化するために、ハイブリッド トレーニング時間拡張を導入します。
3 つの現実世界のデータセット (Endo2017、Endo2018、RoboTool) に関する広範な評価により、1 対多の合成手術器具データセット生成およびセグメンテーション フレームワークが、実際のデータを使用したトレーニングと比較して有望なパフォーマンスを達成できることが実証されました。
特に、より大きなドメインギャップが存在する RoboTool データセットでは、私たちのフレームワークは一般化においてかなりの優位性を示しています。
私たちの刺激的な結果が、データ合成によるモデルの一般化の改善に関する研究の注目を集めるようになると期待しています。
要約(オリジナル)
Despite their impressive performance in various surgical scene understanding tasks, deep learning-based methods are frequently hindered from deploying to real-world surgical applications for various causes. Particularly, data collection, annotation, and domain shift in-between sites and patients are the most common obstacles. In this work, we mitigate data-related issues by efficiently leveraging minimal source images to generate synthetic surgical instrument segmentation datasets and achieve outstanding generalization performance on unseen real domains. Specifically, in our framework, only one background tissue image and at most three images of each foreground instrument are taken as the seed images. These source images are extensively transformed and employed to build up the foreground and background image pools, from which randomly sampled tissue and instrument images are composed with multiple blending techniques to generate new surgical scene images. Besides, we introduce hybrid training-time augmentations to diversify the training data further. Extensive evaluation on three real-world datasets, i.e., Endo2017, Endo2018, and RoboTool, demonstrates that our one-to-many synthetic surgical instruments datasets generation and segmentation framework can achieve encouraging performance compared with training with real data. Notably, on the RoboTool dataset, where a more significant domain gap exists, our framework shows its superiority of generalization by a considerable margin. We expect that our inspiring results will attract research attention to improving model generalization with data synthesizing.
arxiv情報
著者 | An Wang,Mobarakol Islam,Mengya Xu,Hongliang Ren |
発行日 | 2023-06-28 15:06:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google