Video-based Contrastive Learning on Decision Trees: from Action Recognition to Autism Diagnosis


– コンピュータに1万種類の動作を認識する方法はあるか?深層学習は、教師あり・教師なしから自己教師ありアプローチに進化しています。
– 本論文では、コントラスティブ学習に基づく新しい決定木ベースの行動分類フレームワークを提案しています。これには、人間-人間相互作用(HHI)や人間-オブジェクト相互作用(HOI)を含みます。
– 主なアイデアは、元の多クラス行動認識を事前構築された決定木上の一連の二分類タスクに変換することです。
– コントラスティブ学習の新しいフレームワークの下で、骨格グラフをバックボーンとする相互作用隣接行列(IAM)の設計を提示し、周期性や対称性などのさまざまな行動に関連する属性をモデル化します。
– 様々なプレテキストタスクの構築により、決定木上の一連の二分類ノードを取得し、それらを組み合わせて高次元の認識タスクをサポートすることができます。
– 実世界のアプリケーションにおけるアプローチの潜在的な効果の実験的証明は、相互作用認識から対称性検出まで幅広く、特にCalTech面接ビデオデータベース上でのビデオベースの自閉スペクトル障害(ASD)診断の有望なパフォーマンスを示しました。


How can we teach a computer to recognize 10,000 different actions? Deep learning has evolved from supervised and unsupervised to self-supervised approaches. In this paper, we present a new contrastive learning-based framework for decision tree-based classification of actions, including human-human interactions (HHI) and human-object interactions (HOI). The key idea is to translate the original multi-class action recognition into a series of binary classification tasks on a pre-constructed decision tree. Under the new framework of contrastive learning, we present the design of an interaction adjacent matrix (IAM) with skeleton graphs as the backbone for modeling various action-related attributes such as periodicity and symmetry. Through the construction of various pretext tasks, we obtain a series of binary classification nodes on the decision tree that can be combined to support higher-level recognition tasks. Experimental justification for the potential of our approach in real-world applications ranges from interaction recognition to symmetry detection. In particular, we have demonstrated the promising performance of video-based autism spectrum disorder (ASD) diagnosis on the CalTech interview video database.


著者 Mindi Ruan,Xiangxu Yu,Na Zhang,Chuanbo Hu,Shuo Wang,Xin Li
発行日 2023-04-21 06:17:01+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CV パーマリンク