要約
オーディオの大規模言語モデル (LLM) は、人間の音声、音楽、環境音の認識と分析に優れています。
しかし、他のタイプの音、特に生物医学的な音を理解する可能性は、科学的に大きな関心があるにもかかわらず、ほとんど研究されていないままです。
この研究では、心音図、つまり心音を使用した心血管疾患の診断に焦点を当てています。
既存のディープ ニューラル ネットワーク (DNN) パラダイムのほとんどは、心雑音の分類 (健康か不健康か) に限定されており、医師の診断に重要なタイミング、グレード、ハーシュネス、ピッチ、質などの雑音の他の音響特徴を予測していません。
根底にある心臓の状態。
我々は、PhysioNet CirCor DigiScope 心音図 (PCG) データセット上でオーディオ LLM、Qwen2-Audio を微調整し、専門家によってラベル付けされた 11 個の雑音特徴を分類する際のパフォーマンスを評価することを提案します。
さらに、音声表現モデル SSAMBA を使用した前処理セグメンテーション アルゴリズムを検討することで、よりノイズに強く、一般化可能なシステムを実現することを目指しています。
私たちの結果は、LLM ベースのモデルが 11 個の特徴のうち 8 個で最先端の手法を上回り、残りの 3 個では同等の性能を発揮することを示しています。さらに、LLM は、限られたトレーニング データ、つまりタスクである長尾雑音の特徴を首尾よく分類します。
これまでのすべての方法では分類できませんでした。
これらの発見は、心臓病の診断を強化する際の人間の心臓専門医のアシスタントとしてのオーディオ LLM の可能性を強調しています。
要約(オリジナル)
Large language models (LLMs) for audio have excelled in recognizing and analyzing human speech, music, and environmental sounds. However, their potential for understanding other types of sounds, particularly biomedical sounds, remains largely underexplored despite significant scientific interest. In this study, we focus on diagnosing cardiovascular diseases using phonocardiograms, i.e., heart sounds. Most existing deep neural network (DNN) paradigms are restricted to heart murmur classification (healthy vs unhealthy) and do not predict other acoustic features of the murmur such as timing, grading, harshness, pitch, and quality, which are important in helping physicians diagnose the underlying heart conditions. We propose to finetune an audio LLM, Qwen2-Audio, on the PhysioNet CirCor DigiScope phonocardiogram (PCG) dataset and evaluate its performance in classifying 11 expert-labeled murmur features. Additionally, we aim to achieve more noise-robust and generalizable system by exploring a preprocessing segmentation algorithm using an audio representation model, SSAMBA. Our results indicate that the LLM-based model outperforms state-of-the-art methods in 8 of the 11 features and performs comparably in the remaining 3. Moreover, the LLM successfully classifies long-tail murmur features with limited training data, a task that all previous methods have failed to classify. These findings underscore the potential of audio LLMs as assistants to human cardiologists in enhancing heart disease diagnosis.
arxiv情報
著者 | Adrian Florea,Xilin Jiang,Nima Mesgarani,Xiaofan Jiang |
発行日 | 2025-01-23 17:57:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google