Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis

要約

医学的超音波検査は、リンパ節、乳房、甲状腺などの表在臓器や組織を調べるための不可欠な画像技術です。
高周波超音波波を使用して、人体の内部構造の詳細な画像を生成します。
ただし、これらの画像に関心のある手動で輪郭を描く領域は、専門知識を要求し、個人の間で一貫性のない解釈をもたらす労働集約的なタスクです。
さまざまなコンピュータービジョンアプリケーションに優れているVision-Language Foundationモデルは、超音波画像分析を強化するための新しい機会を提供します。
しかし、彼らのパフォーマンスは、自然イメージングドメインと医療イメージングドメインの大きな違いによって妨げられています。
この研究は、ビジョン言語基礎モデルのドメイン適応方法を開発することにより、これらの課題を克服しようとしています。
この研究では、特別な適応戦略とタスク駆動型のヘッドを備えたテキスト精製業者として大規模な言語モデルを利用することにより、Vision-Language Foundationモデルの微調整パイプラインを探ります。
私たちのアプローチは、6つの超音波データセットとセグメンテーションと分類の2つのタスクで広く評価されています。
実験結果は、私たちの方法が超音波画像分析のためのVision-Language Foundationモデルのパフォーマンスを効果的に改善し、既存の最先端のビジョン言語および純粋な基礎モデルを上回ることができることを示しています。
この研究のソースコードは、\ href {https://github.com/jinggqu/nextgen-uia} {github}で入手できます。

要約(オリジナル)

Medical ultrasonography is an essential imaging technique for examining superficial organs and tissues, including lymph nodes, breast, and thyroid. It employs high-frequency ultrasound waves to generate detailed images of the internal structures of the human body. However, manually contouring regions of interest in these images is a labor-intensive task that demands expertise and often results in inconsistent interpretations among individuals. Vision-language foundation models, which have excelled in various computer vision applications, present new opportunities for enhancing ultrasound image analysis. Yet, their performance is hindered by the significant differences between natural and medical imaging domains. This research seeks to overcome these challenges by developing domain adaptation methods for vision-language foundation models. In this study, we explore the fine-tuning pipeline for vision-language foundation models by utilizing large language model as text refiner with special-designed adaptation strategies and task-driven heads. Our approach has been extensively evaluated on six ultrasound datasets and two tasks: segmentation and classification. The experimental results show that our method can effectively improve the performance of vision-language foundation models for ultrasound image analysis, and outperform the existing state-of-the-art vision-language and pure foundation models. The source code of this study is available at \href{https://github.com/jinggqu/NextGen-UIA}{GitHub}.

arxiv情報

著者 Jingguo Qu,Xinyang Han,Tonghuan Xiao,Jia Ai,Juan Wu,Tong Zhao,Jing Qin,Ann Dorothy King,Winnie Chiu-Wing Chu,Jing Cai,Michael Tin-Cheung Yingınst
発行日 2025-06-10 14:37:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク