On the Relevance of Temporal Features for Medical Ultrasound Video Recognition

要約

多くの医療用超音波ビデオ認識タスクでは、主要な解剖学的特徴がビデオ内にいつ現れるかに関係なく、そのようなタスクのモデリングが時間的特徴から恩恵を受けない可能性があることを示唆しています。
同様に、時間的特徴を除外したモデル アーキテクチャの方がサンプル効率が向上する可能性があります。
我々は、一般的な超音波タスクでより良いサンプル効率を達成するために、これらの仮説を帰納的事前確率として組み込む新しいマルチヘッド アテンション アーキテクチャを提案します。
私たちは、時間的特徴を必要としないことが予想される設定と、時間的特徴を必要とする設定の 2 つの設定で、アーキテクチャのパフォーマンスを効率的な 3D CNN ビデオ認識モデルと比較しました。
前者の設定では、特にトレーニング データを人為的に制限した場合、モデルは 3D CNN よりも優れたパフォーマンスを発揮します。
後者の場合、結果は逆転します。
これらの結果は、低データ領域におけるいくつかの一般的な超音波タスクでは、表現力豊かな時間に依存しないモデルが最先端のビデオ認識モデルよりも効果的である可能性があることを示唆しています。

要約(オリジナル)

Many medical ultrasound video recognition tasks involve identifying key anatomical features regardless of when they appear in the video suggesting that modeling such tasks may not benefit from temporal features. Correspondingly, model architectures that exclude temporal features may have better sample efficiency. We propose a novel multi-head attention architecture that incorporates these hypotheses as inductive priors to achieve better sample efficiency on common ultrasound tasks. We compare the performance of our architecture to an efficient 3D CNN video recognition model in two settings: one where we expect not to require temporal features and one where we do. In the former setting, our model outperforms the 3D CNN – especially when we artificially limit the training data. In the latter, the outcome reverses. These results suggest that expressive time-independent models may be more effective than state-of-the-art video recognition models for some common ultrasound tasks in the low-data regime.

arxiv情報

著者 D. Hudson Smith,John Paul Lineberger,George H. Baker
発行日 2023-10-16 14:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク