Efficient Action Recognition Using Confidence Distillation

要約

最新のニューラル ネットワークは、強力な予測モデルです。
ただし、自分の予測が間違っている可能性があることを認識するとなると、パフォーマンスが低下します。
たとえば、最も一般的な活性化関数の 1 つである ReLU とそのバリアントの場合、適切に調整されたモデルでも、不正確ではあるが信頼性の高い予測が生成される可能性があります。
アクション認識の関連タスクでは、ほとんどの現在の分類方法は、クリップ レベルの分類子に基づいています。これは、重複しない同じサイズのクリップについて特定のビデオを高密度にサンプリングし、集約関数 (通常は平均化) を使用して結果を集約し、ビデオ レベルを達成します。
予測。
このアプローチは効果的であることが示されていますが、認識精度は最適ではなく、計算オーバーヘッドが高くなります。
これらの問題を軽減するために、教師の不確実性の表現を生徒サンプラーに教え、完全なビデオ予測のタスクを生徒モデルと教師モデルの間で分割する信頼蒸留フレームワークを提案します。
3 つのアクション認識データセットに対して大規模な実験を行い、フレームワークによってアクション認識の精度 (最大 20%) と計算効率 (40% 以上) が大幅に向上することを実証しました。

要約(オリジナル)

Modern neural networks are powerful predictive models. However, when it comes to recognizing that they may be wrong about their predictions, they perform poorly. For example, for one of the most common activation functions, the ReLU and its variants, even a well-calibrated model can produce incorrect but high confidence predictions. In the related task of action recognition, most current classification methods are based on clip-level classifiers that densely sample a given video for non-overlapping, same-sized clips and aggregate the results using an aggregation function – typically averaging – to achieve video level predictions. While this approach has shown to be effective, it is sub-optimal in recognition accuracy and has a high computational overhead. To mitigate both these issues, we propose the confidence distillation framework to teach a representation of uncertainty of the teacher to the student sampler and divide the task of full video prediction between the student and the teacher models. We conduct extensive experiments on three action recognition datasets and demonstrate that our framework achieves significant improvements in action recognition accuracy (up to 20%) and computational efficiency (more than 40%).

arxiv情報

著者 Shervin Manzuri Shalmani,Fei Chiang,Rong Zheng
発行日 2022-08-16 16:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク