One model to use them all: Training a segmentation model with complementary datasets

要約

コンピュータ支援手術システムがインテリジェントな支援機能を提供するには、手術現場を理解することが重要です。
このシーンの理解を実現する 1 つの方法は、フレームのすべてのピクセルが分類されるため、目に見える構造や組織を識別するシーン セグメンテーションを使用することです。
機械学習を使用して、手術シーンの完全なセグメント化が進歩しました。
ただし、そのようなモデルには、関連するすべてのオブジェクト クラスの例を含む、注釈付きの大量のトレーニング データが必要です。
このように完全に注釈が付けられたデータセットは、フレーム内のすべてのピクセルに医療専門家が注釈を付ける必要があるため、作成するのが難しく、そのため入手できることはほとんどありません。
この研究では、補完的なアノテーションを提供する、部分的にアノテーションが付けられた複数のデータセットを 1 つのモデルに結合する方法を提案します。これにより、より適切なシーンのセグメンテーションと、すぐに利用可能な複数のデータセットの使用が可能になります。
私たちの方法は、情報を最大化するために相互排他的な特性を活用することにより、利用可能なデータを補完的なラベルと結合することを目的としています。
具体的には、他のクラスのポジティブなアノテーションをネガティブなサンプルとして使用し、アノテーションが付けられていないがモデルによって予測されたクラスが含まれているかどうかを判断できないため、バイナリ アノテーションの背景ピクセルを除外することを提案します。
私たちは、バイナリでセグメント化された解剖学的構造の複数のサブセットを提供する、公的に利用可能なドレスデン外科解剖データセットで DeepLabV3 をトレーニングすることにより、このメソッドを評価します。
私たちのアプローチは 6 つのクラスを 1 つのモデルに組み合わせることに成功し、クラスごとに個別にトレーニングされたモデルのアンサンブルと比較して、全体のダイス スコアを 4.4% 増加させました。
複数のクラスに関する情報を含めることで、胃と結腸の間の混乱を 24% 減らすことができました。
私たちの結果は、複数のデータセットでモデルをトレーニングする実現可能性を示しています。
これにより、完全にセグメント化された 1 つの大規模なデータセットの必要性がさらに軽減される将来の作業への道が開かれます。

要約(オリジナル)

Understanding a surgical scene is crucial for computer-assisted surgery systems to provide any intelligent assistance functionality. One way of achieving this scene understanding is via scene segmentation, where every pixel of a frame is classified and therefore identifies the visible structures and tissues. Progress on fully segmenting surgical scenes has been made using machine learning. However, such models require large amounts of annotated training data, containing examples of all relevant object classes. Such fully annotated datasets are hard to create, as every pixel in a frame needs to be annotated by medical experts and, therefore, are rarely available. In this work, we propose a method to combine multiple partially annotated datasets, which provide complementary annotations, into one model, enabling better scene segmentation and the use of multiple readily available datasets. Our method aims to combine available data with complementary labels by leveraging mutual exclusive properties to maximize information. Specifically, we propose to use positive annotations of other classes as negative samples and to exclude background pixels of binary annotations, as we cannot tell if they contain a class not annotated but predicted by the model. We evaluate our method by training a DeepLabV3 on the publicly available Dresden Surgical Anatomy Dataset, which provides multiple subsets of binary segmented anatomical structures. Our approach successfully combines 6 classes into one model, increasing the overall Dice Score by 4.4% compared to an ensemble of models trained on the classes individually. By including information on multiple classes, we were able to reduce confusion between stomach and colon by 24%. Our results demonstrate the feasibility of training a model on multiple datasets. This paves the way for future work further alleviating the need for one large, fully segmented datasets.

arxiv情報

著者 Alexander C. Jenke,Sebastian Bodenstedt,Fiona R. Kolbinger,Marius Distler,Jürgen Weitz,Stefanie Speidel
発行日 2024-04-05 12:49:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク