要約
暗いビデオでの人間の動作の認識は、コンピューター ビジョンにとって困難な課題です。
最近の研究は、ビデオの視認性を向上させるために暗部強調手法を適用することに焦点を当てています。
ただし、このようなビデオ処理では、元の (強化されていない) ビデオの重要な情報が失われます。
逆に、従来の 2 ストリーム手法は、元のビデオと処理されたビデオの両方から情報を学習できますが、ビデオ分類タスクの推論段階での計算コストの大幅な増加につながる可能性があります。
これらの課題に対処するために、私たちは、暗闇での行動認識のためのデュアルライト知識蒸留 (DL-KDD) と呼ばれる、新しい教師と生徒のビデオ分類フレームワークを提案します。
このフレームワークにより、モデルは推論中に追加の計算コストを導入することなく、元のビデオと強化されたビデオの両方から学習できるようになります。
具体的には、DL-KDD はトレーニング中に知識を蒸留する戦略を利用します。
教師モデルは強化されたビデオを使用してトレーニングされ、学生モデルは元のビデオと教師モデルによって生成されたソフト ターゲットの両方を使用してトレーニングされます。
この教師と生徒のフレームワークにより、生徒モデルは推論中に元の入力ビデオのみを使用してアクションを予測できます。
私たちの実験では、提案された DL-KDD フレームワークは、ARID、ARID V1.5、および Dark-48 データセットで最先端の方法よりも優れたパフォーマンスを示しました。
オリジナルのビデオ入力のみを使用して、各データセットで最高のパフォーマンスを達成し、Dark-48 で最大 4.18% の改善を達成しました。これにより、推論のための 2 ストリーム フレームワークや拡張モジュールの使用を回避できます。
さらに、アブレーション実験における蒸留戦略の有効性を検証します。
この結果は、暗い人間の行動認識における知識蒸留フレームワークの利点を強調しています。
要約(オリジナル)
Human action recognition in dark videos is a challenging task for computer vision. Recent research focuses on applying dark enhancement methods to improve the visibility of the video. However, such video processing results in the loss of critical information in the original (un-enhanced) video. Conversely, traditional two-stream methods are capable of learning information from both original and processed videos, but it can lead to a significant increase in the computational cost during the inference phase in the task of video classification. To address these challenges, we propose a novel teacher-student video classification framework, named Dual-Light KnowleDge Distillation for Action Recognition in the Dark (DL-KDD). This framework enables the model to learn from both original and enhanced video without introducing additional computational cost during inference. Specifically, DL-KDD utilizes the strategy of knowledge distillation during training. The teacher model is trained with enhanced video, and the student model is trained with both the original video and the soft target generated by the teacher model. This teacher-student framework allows the student model to predict action using only the original input video during inference. In our experiments, the proposed DL-KDD framework outperforms state-of-the-art methods on the ARID, ARID V1.5, and Dark-48 datasets. We achieve the best performance on each dataset and up to a 4.18% improvement on Dark-48, using only original video inputs, thus avoiding the use of two-stream framework or enhancement modules for inference. We further validate the effectiveness of the distillation strategy in ablative experiments. The results highlight the advantages of our knowledge distillation framework in dark human action recognition.
arxiv情報
著者 | Chi-Jui Chang,Oscar Tai-Yuan Chen,Vincent S. Tseng |
発行日 | 2024-06-04 16:38:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google