要約
コンピュータ支援医療における手術のワークフロー解析において、位相認識は重要な役割を担っている。もともと自然言語処理における逐次的なデータモデリングのために提案されたTransformerは、外科手術のフェーズ認識への応用に成功している。トランスフォーマーに基づく既存の研究は、主に注意依存性のモデリングに焦点を当てており、自己回帰を導入していない。本論文では、腹腔鏡映像からのオンライン手術相認識のために、条件付き確率分布によって相間相関を暗黙的にモデル化した自動回帰型手術相変換器(ARST)を最初に提案する。推論バイアスを低減し、位相の一貫性を高めるために、我々はさらに自動回帰に基づく一貫性制約推論戦略を開発する。我々は有名な公共データセットであるCholec80を用いて包括的な検証を行った。実験の結果、本手法は定量的、定性的にも最先端手法を上回り、66fpsの推論速度を達成した。
要約(オリジナル)
Phase recognition plays an essential role for surgical workflow analysis in computer assisted intervention. Transformer, originally proposed for sequential data modeling in natural language processing, has been successfully applied to surgical phase recognition. Existing works based on transformer mainly focus on modeling attention dependency, without introducing auto-regression. In this work, an Auto-Regressive Surgical Transformer, referred as ARST, is first proposed for on-line surgical phase recognition from laparoscopic videos, modeling the inter-phase correlation implicitly by conditional probability distribution. To reduce inference bias and to enhance phase consistency, we further develop a consistency constraint inference strategy based on auto-regression. We conduct comprehensive validations on a well-known public dataset Cholec80. Experimental results show that our method outperforms the state-of-the-art methods both quantitatively and qualitatively, and achieves an inference rate of 66 frames per second (fps).
arxiv情報
著者 | Xiaoyang Zou,Wenyong Liu,Junchen Wang,Rong Tao,Guoyan Zheng |
発行日 | 2022-09-02 16:05:39+00:00 |
arxivサイト | arxiv_id(pdf) |