Hand Hygiene Assessment via Joint Step Segmentation and Key Action Scorer

要約

手指衛生は、世界保健機関 (WHO) によって提案された標準的な 6 ステップの手洗いアクションです。
しかし、医療スタッフが手指衛生を行うように監督する良い方法はなく、病気が蔓延する潜在的なリスクをもたらします。
既存のアクション評価作業は、通常、ビデオ全体の全体的な品質予測を行います。
しかし、手指衛生行動の内部構造は、手指衛生評価において重要です。
したがって、正確な手指衛生評価のために、ステップセグメンテーションとキーアクションスコアラーを共同で実行するための、新しいきめの細かい学習フレームワークを提案します。
既存の時間的セグメンテーション方法は、通常、マルチステージ畳み込みネットワークを使用してセグメンテーションの堅牢性を向上させますが、長距離依存性がないため、過剰なセグメンテーションに簡単につながります。
この問題に対処するために、ステップ セグメンテーション用の多段畳み込み変換ネットワークを設計します。
各手洗いステップには、手洗いの質を決定するいくつかの重要な行動が含まれるという観察に基づいて、各ステップでの重要な行動の質を評価する一連の重要な行動スコアラーを設計します。
さらに、手指衛生評価に関する統一されたデータセットがありません。
したがって、医療スタッフの監督の下で、きめ細かい注釈付きの 300 のビデオ シーケンスを含むビデオ データセットを提供します。
データセットに関する広範な実験は、私たちの方法が手指衛生ビデオを適切に評価し、優れたパフォーマンスを達成することを示唆しています。

要約(オリジナル)

Hand hygiene is a standard six-step hand-washing action proposed by the World Health Organization (WHO). However, there is no good way to supervise medical staff to do hand hygiene, which brings the potential risk of disease spread. Existing action assessment works usually make an overall quality prediction on an entire video. However, the internal structures of hand hygiene action are important in hand hygiene assessment. Therefore, we propose a novel fine-grained learning framework to perform step segmentation and key action scorer in a joint manner for accurate hand hygiene assessment. Existing temporal segmentation methods usually employ multi-stage convolutional network to improve the segmentation robustness, but easily lead to over-segmentation due to the lack of the long-range dependence. To address this issue, we design a multi-stage convolution-transformer network for step segmentation. Based on the observation that each hand-washing step involves several key actions which determine the hand-washing quality, we design a set of key action scorers to evaluate the quality of key actions in each step. In addition, there lacks a unified dataset in hand hygiene assessment. Therefore, under the supervision of medical staff, we contribute a video dataset that contains 300 video sequences with fine-grained annotations. Extensive experiments on the dataset suggest that our method well assesses hand hygiene videos and achieves outstanding performance.

arxiv情報

著者 Chenglong Li,Qiwen Zhu,Tubiao Liu,Jin Tang,Yu Su
発行日 2022-11-16 16:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク