Hierarchical Explanations for Video Action Recognition

要約

クラス間の階層関係を考慮して推論プロセスを説明する解釈可能なネットワークである Hierarchical ProtoPNet を提案します。
入力画像を分析し、分類に関与するプロトタイプの部分を見つけることによって推論プロセスを説明する以前の方法とは異なり、クラス階層の複数のレベルで入力ビデオフレームを分析することにより、ビデオアクション分類の推論プロセスを説明することを提案します。
説明は階層を利用して、人間の推論に似た不確実性に対処します。水と人間の活動を観察するが、決定的な行動がない場合、それはウォータースポーツの親クラスとして認識できます。
人が泳いでいるのを観察して初めて、それを水泳アクションに決定的に絞り込むことができます。
ActivityNet と UCF-101 の実験では、マルチレベルの説明を提供しながらパフォーマンスの向上が見られます。

要約(オリジナル)

We propose Hierarchical ProtoPNet: an interpretable network that explains its reasoning process by considering the hierarchical relationship between classes. Different from previous methods that explain their reasoning process by dissecting the input image and finding the prototypical parts responsible for the classification, we propose to explain the reasoning process for video action classification by dissecting the input video frames on multiple levels of the class hierarchy. The explanations leverage the hierarchy to deal with uncertainty, akin to human reasoning: When we observe water and human activity, but no definitive action it can be recognized as the water sports parent class. Only after observing a person swimming can we definitively refine it to the swimming action. Experiments on ActivityNet and UCF-101 show performance improvements while providing multi-level explanations.

arxiv情報

著者 Sadaf Gulshad,Teng Long,Nanne van Noord
発行日 2023-01-01 16:24:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク