On the Relevance of Temporal Features for Medical Ultrasound Video Recognition


同様に、時間的特徴を除外したモデル アーキテクチャの方がサンプル効率が向上する可能性があります。
我々は、一般的な超音波タスクでより良いサンプル効率を達成するために、これらの仮説を帰納的事前確率として組み込む新しいマルチヘッド アテンション アーキテクチャを提案します。
私たちは、時間的特徴を必要としないことが予想される設定と、時間的特徴を必要とする設定の 2 つの設定で、アーキテクチャのパフォーマンスを効率的な 3D CNN ビデオ認識モデルと比較しました。
前者の設定では、特にトレーニング データを人為的に制限した場合、モデルは 3D CNN よりも優れたパフォーマンスを発揮します。


Many medical ultrasound video recognition tasks involve identifying key anatomical features regardless of when they appear in the video suggesting that modeling such tasks may not benefit from temporal features. Correspondingly, model architectures that exclude temporal features may have better sample efficiency. We propose a novel multi-head attention architecture that incorporates these hypotheses as inductive priors to achieve better sample efficiency on common ultrasound tasks. We compare the performance of our architecture to an efficient 3D CNN video recognition model in two settings: one where we expect not to require temporal features and one where we do. In the former setting, our model outperforms the 3D CNN – especially when we artificially limit the training data. In the latter, the outcome reverses. These results suggest that expressive time-independent models may be more effective than state-of-the-art video recognition models for some common ultrasound tasks in the low-data regime.


著者 D. Hudson Smith,John Paul Lineberger,George H. Baker
発行日 2023-10-16 14:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク