TongueSAM: An Universal Tongue Segmentation Model Based on SAM with Zero-Shot

要約

舌のセグメンテーションは、自動中医学舌診断の主要なステップとして機能し、診断結果に重要な役割を果たします。
現在、多数の深層学習ベースの手法が有望な結果を達成しています。
ただし、トレーニング セットとは異なる舌画像や困難な背景を持つ舌画像に直面した場合、これらの方法ではパフォーマンスが制限されます。
この問題に対処するために、本論文では、SAM (Segment Anything Model) に基づいた TongueSAM という名前の汎用舌セグメンテーション モデルを提案します。
SAM は、強力なゼロショット汎化機能で知られる大規模な事前トレーニング済みの対話型セグメンテーション モデルです。
SAM を舌セグメンテーションに適用すると、自然画像から学習した事前知識が活用され、さまざまな種類の舌画像に対してゼロショット セグメンテーションを実現できます。
この研究では、物体検出に基づくプロンプト ジェネレーターが SAM に統合され、エンドツーエンドの自動舌セグメンテーション手法が可能になります。
実験では、TongueSAM がさまざまな舌セグメンテーション データセットにわたって、特にゼロショット下で優れたパフォーマンスを達成することが実証されています。
困難な背景の舌画像を扱う場合でも、TongueSAM はゼロショット条件下で 95.23\% の mIoU を達成し、他のセグメンテーション方法を上回ります。
私たちが知る限り、これは舌セグメンテーションのための大規模な事前学習済みモデルの最初のアプリケーションです。
プロジェクトと事前トレーニング済みモデルは、論文が受理されると公開されます。

要約(オリジナル)

Tongue segmentation serves as the primary step in automated TCM tongue diagnosis, which plays a significant role in the diagnostic results. Currently, numerous deep learning based methods have achieved promising results. However, when confronted with tongue images that differ from the training set or possess challenging backgrounds, these methods demonstrate limited performance. To address this issue, this paper proposes a universal tongue segmentation model named TongueSAM based on SAM (Segment Anything Model). SAM is a large-scale pretrained interactive segmentation model known for its powerful zero-shot generalization capability. Applying SAM to tongue segmentation leverages its learned prior knowledge from natural images, enabling the achievement of zero-shot segmentation for various types of tongue images. In this study, a Prompt Generator based on object detection is integrated into SAM to enable an end-to-end automated tongue segmentation method. Experiments demonstrate that TongueSAM achieves exceptional performance across various of tongue segmentation datasets, particularly under zero-shot. Even when dealing with challenging background tongue images, TongueSAM achieves a mIoU of 95.23\% under zero-shot conditions, surpassing other segmentation methods. As far as we know, this is the first application of large-scale pretrained model for tongue segmentation. The project and pretrained model will be made public when the paper is accepted.

arxiv情報

著者 Shan Cao,Qunsheng Ruan,Qingfeng Wu
発行日 2023-10-18 12:45:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク