Self-supervised Learning of Echocardiographic Video Representations via Online Cluster Distillation

要約

自己教師の学習(SSL)は、自然な画像とビデオ理解の大きな進歩を達成していますが、微妙な解剖学的構造、複雑な時間的ダイナミクス、およびドメイン固有の前訓練モデルの現在の欠如により、心エコー検査(心超音波)のようなドメインに課題が残っています。
コントラスト、マスクモデリング、クラスタリングベースの方法などの既存のSSLアプローチは、高いインターサンプルの類似性、超音波で一般的な低PSNR入力に対する感度、または臨床的に関連する特徴を歪める攻撃的な増強と闘っています。
心臓超音波ビデオ表現学習のための自己監視されたデュアルブランチフレームワークであるDiscoVR(クロスモーダルビデオ表現の蒸留画像監督)を提示します。
DISCOVRは、時間的ダイナミクスをモデル化するクラスタリングベースのビデオエンコーダと、きちんとした空間セマンティクスを抽出するオンライン画像エンコーダを組み合わせます。
これらのブランチは、進化する画像エンコーダーからビデオエンコーダーに解剖学的知識を転送するセマンティッククラスター蒸留損失を介して接続され、微調整されたセマンティック理解で濃縮された一時的にコヒーレントな表現を可能にします。
胎児、小児、および成人の個体群にまたがる6つの心エコー検査データセットで評価されたDiscovrは、特殊なビデオ異常検出方法と、最先端のビデオSSLベースラインの両方でゼロショットおよび線形プロービングセットアップの両方を上回り、優れたセグメンテーション移動を達成します。

要約(オリジナル)

Self-supervised learning (SSL) has achieved major advances in natural images and video understanding, but challenges remain in domains like echocardiography (heart ultrasound) due to subtle anatomical structures, complex temporal dynamics, and the current lack of domain-specific pre-trained models. Existing SSL approaches such as contrastive, masked modeling, and clustering-based methods struggle with high intersample similarity, sensitivity to low PSNR inputs common in ultrasound, or aggressive augmentations that distort clinically relevant features. We present DISCOVR (Distilled Image Supervision for Cross Modal Video Representation), a self-supervised dual branch framework for cardiac ultrasound video representation learning. DISCOVR combines a clustering-based video encoder that models temporal dynamics with an online image encoder that extracts fine-grained spatial semantics. These branches are connected through a semantic cluster distillation loss that transfers anatomical knowledge from the evolving image encoder to the video encoder, enabling temporally coherent representations enriched with fine-grained semantic understanding. Evaluated on six echocardiography datasets spanning fetal, pediatric, and adult populations, DISCOVR outperforms both specialized video anomaly detection methods and state-of-the-art video-SSL baselines in zero-shot and linear probing setups, and achieves superior segmentation transfer.

arxiv情報

著者 Divyanshu Mishra,Mohammadreza Salehi,Pramit Saha,Olga Patey,Aris T. Papageorghiou,Yuki M. Asano,J. Alison Noble
発行日 2025-06-13 13:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG パーマリンク