要約
我々は、特に胎児超音波分析に焦点を当てた、医療画像ビデオ用の初の自動マルチモーダル概要生成システム MMsummary を紹介します。
人間の超音波検査技師によって実行される検査プロセスを模倣した MMsummary は、キーフレームの検出からキーフレームのキャプション付け、そして最後に解剖学的セグメンテーションと測定に進む 3 段階のパイプラインとして設計されています。
キーフレーム検出段階では、冗長性を持たずに十分なビデオ情報を保持しながら、簡潔なキーフレームのセットを段階的に選択する革新的な自動ワークフローが提案されています。
続いて、大規模な言語モデルを適応させて、キーフレームのキャプション作成段階で胎児超音波キーフレームの意味のあるキャプションを生成します。
キーフレームに胎児バイオメトリとしてキャプションが付けられている場合、セグメンテーションおよび測定段階では、テキストの事前情報に従って対象領域をセグメント化することにより、バイオメトリクスパラメータを推定します。
MMsummary システムは胎児超音波検査の包括的な概要を提供し、報告された実験に基づくとスキャン時間を約 31.5% 削減すると推定されており、それによって臨床ワークフローの効率を向上させる可能性が示唆されています。
要約(オリジナル)
We present the first automated multimodal summary generation system, MMSummary, for medical imaging video, particularly with a focus on fetal ultrasound analysis. Imitating the examination process performed by a human sonographer, MMSummary is designed as a three-stage pipeline, progressing from keyframe detection to keyframe captioning and finally anatomy segmentation and measurement. In the keyframe detection stage, an innovative automated workflow is proposed to progressively select a concise set of keyframes, preserving sufficient video information without redundancy. Subsequently, we adapt a large language model to generate meaningful captions for fetal ultrasound keyframes in the keyframe captioning stage. If a keyframe is captioned as fetal biometry, the segmentation and measurement stage estimates biometric parameters by segmenting the region of interest according to the textual prior. The MMSummary system provides comprehensive summaries for fetal ultrasound examinations and based on reported experiments is estimated to reduce scanning time by approximately 31.5%, thereby suggesting the potential to enhance clinical workflow efficiency.
arxiv情報
| 著者 | Xiaoqing Guo,Qianhui Men,J. Alison Noble |
| 発行日 | 2024-08-07 13:30:58+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google