Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis


この論文では、音声データとビデオ データを組み合わせて、臨床評価のために喉頭ビデオストロボスコープ ビデオから主要なセグメントと指標を自動的に抽出するシステムである喉頭鏡用マルチモーダル分析システム (MASL) について説明します。
MASL は、声門検出とキーワード スポッティングを統合して、患者の発声を分析し、ビデオ ハイライトを調整して声帯の動きをより適切に検査します。
このシステムには、色相、彩度、値の変動を分析してフレームを識別するストロボ ビデオ抽出モジュールが含まれています。
MASL はまた、U-Net を使用した 2 段階の声門セグメンテーション プロセスとそれに続く拡散ベースの改良を採用して、声帯麻痺を検出するための効果的なメトリクスを提供して、誤検知を削減します。
MASL は、声門領域の波形の代わりに、声門マスクから前声門角波形 (AGAW) を推定し、左右の声帯を評価して片側声帯麻痺 (UVFP) を検出します。
MASL は、AGAW の分散を比較することにより、左麻痺と右麻痺を区別します。
公共および現実世界のデータセットに関するアブレーション研究と実験は、MASL のセグメンテーション モジュールを検証し、UVFP 診断のための信頼できる指標を提供する機能を実証します。


This paper presents the Multimodal Analyzing System for Laryngoscope (MASL), a system that combines audio and video data to automatically extract key segments and metrics from laryngeal videostroboscopic videos for clinical assessment. MASL integrates glottis detection with keyword spotting to analyze patient vocalizations and refine video highlights for better inspection of vocal cord movements. The system includes a strobing video extraction module that identifies frames by analyzing hue, saturation, and value fluctuations. MASL also provides effective metrics for vocal cord paralysis detection, employing a two-stage glottis segmentation process using U-Net followed by diffusion-based refinement to reduce false positives. Instead of glottal area waveforms, MASL estimates anterior glottic angle waveforms (AGAW) from glottis masks, evaluating both left and right vocal cords to detect unilateral vocal cord paralysis (UVFP). By comparing AGAW variances, MASL distinguishes between left and right paralysis. Ablation studies and experiments on public and real-world datasets validate MASL’s segmentation module and demonstrate its ability to provide reliable metrics for UVFP diagnosis.


著者 Yucong Zhang,Xin Zou,Jinshan Yang,Wenjun Chen,Faya Liang,Ming Li
発行日 2024-09-05 14:56:38+00:00
