要約
手術スキルのビデオベースの自動評価は、特にリソースの乏しい地域における若い外科研修生を支援するための有望なタスクである。既存の研究では、空間的にプールされた短期的なCNN特徴量に対してLSTMによって長期的な関係をモデル化する、CNN-LSTMジョイントフレームワークに頼ることが多い。しかし、この方法では、空間次元における道具、組織、背景などの意味的概念の違いが無視され、その後の時間的関係のモデリングに支障をきたすことが必至である。本論文では、異なる意味部分を発見し、時空間次元に渡ってそれらを集約する新しいスキル評価フレームワーク、Video Semantic Aggregation (ViSA)を提案する。意味部分の明示的な発見は、ニューラルネットワークの判断を理解するのに役立つ説明的な可視化を提供する。また、運動学的データなどの補助情報をさらに取り込むことで、表現学習と性能を向上させることができる。2つのデータセットでの実験により、ViSAが最先端の手法と比較して競争力を持つことが示された。ソースコードはbit.ly/MICCAI2022ViSAで公開されています。
要約(オリジナル)
Automated video-based assessment of surgical skills is a promising task in assisting young surgical trainees, especially in poor-resource areas. Existing works often resort to a CNN-LSTM joint framework that models long-term relationships by LSTMs on spatially pooled short-term CNN features. However, this practice would inevitably neglect the difference among semantic concepts such as tools, tissues, and background in the spatial dimension, impeding the subsequent temporal relationship modeling. In this paper, we propose a novel skill assessment framework, Video Semantic Aggregation (ViSA), which discovers different semantic parts and aggregates them across spatiotemporal dimensions. The explicit discovery of semantic parts provides an explanatory visualization that helps understand the neural network’s decisions. It also enables us to further incorporate auxiliary information such as the kinematic data to improve representation learning and performance. The experiments on two datasets show the competitiveness of ViSA compared to state-of-the-art methods. Source code is available at: bit.ly/MICCAI2022ViSA.
arxiv情報
著者 | Zhenqiang Li,Lin Gu,Weimin Wang,Ryosuke Nakamura,Yoichi Sato |
発行日 | 2022-08-04 12:24:01+00:00 |
arxivサイト | arxiv_id(pdf) |