Sumotosima: A Framework and Dataset for Classifying and Summarizing Otoscopic Images

要約

耳鏡検査は、耳鏡を使用して外耳道と鼓膜を検査する診断手順です。
感染症、異物、鼓膜穿孔、耳の異常などの状態を特定します。
我々は、新しいリソース効率の高い深層学習とトランスフォーマーベースのフレームワークである Sumotosima (耳鏡画像用のサマライザー)、分類とそれに続く要約のためのエンドツーエンドのパイプラインを提案します。
私たちのフレームワークは、三重項損失とクロスエントロピー損失の組み合わせに作用します。
さらに、入力がテキストと画像の埋め込みを融合した Knowledge Enhanced Multimodal BART を使用します。
目的は、患者にとって適切な要約を提供し、耳鏡画像を理解する際の明瞭さと効率を確保することです。
既存のデータセットが不足していることを考慮して、私たちは独自の OCASD (耳鏡分類および概要データセット) を厳選しました。これには、耳鼻咽喉科医によるクラスと概要の注釈が付けられた 5 つの独自のカテゴリを持つ 500 枚の画像が含まれています。
Sumotosima は、分類タスクにおいて K-最近傍法、ランダム フォレスト、サポート ベクター マシンよりもそれぞれ 7.00%、3.10%、3.01% 高い 98.03% の結果を達成しました。
要約すると、Sumotosima は ROUGE スコアで GPT-4o と LLaVA をそれぞれ 88.53% と 107.57% 上回りました。
コードとデータセットは https://github.com/anas2908/Sumotosima で公開しています。

要約(オリジナル)

Otoscopy is a diagnostic procedure to examine the ear canal and eardrum using an otoscope. It identifies conditions like infections, foreign bodies, ear drum perforations and ear abnormalities. We propose a novel resource efficient deep learning and transformer based framework, Sumotosima (Summarizer for otoscopic images), an end-to-end pipeline for classification followed by summarization. Our framework works on combination of triplet and cross-entropy losses. Additionally, we use Knowledge Enhanced Multimodal BART whose input is fused textual and image embedding. The objective is to provide summaries that are well-suited for patients, ensuring clarity and efficiency in understanding otoscopic images. Given the lack of existing datasets, we have curated our own OCASD (Otoscopic Classification And Summary Dataset), which includes 500 images with 5 unique categories annotated with their class and summaries by Otolaryngologists. Sumotosima achieved a result of 98.03%, which is 7.00%, 3.10%, 3.01% higher than K-Nearest Neighbors, Random Forest and Support Vector Machines, respectively, in classification tasks. For summarization, Sumotosima outperformed GPT-4o and LLaVA by 88.53% and 107.57% in ROUGE scores, respectively. We have made our code and dataset publicly available at https://github.com/anas2908/Sumotosima

arxiv情報

著者 Eram Anwarul Khan,Anas Anwarul Haq Khan
発行日 2024-08-13 09:26:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク