TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals

要約

エンゲージメント分析は、医療、教育、広告、サービスなどさまざまな分野で応用されています。
分析に使用されるディープ ニューラル ネットワークは複雑なアーキテクチャを備えており、大量の入力データ、計算能力、推論時間を必要とします。
これらの制約により、リアルタイム使用のためにシステムをデバイスに組み込むことが困難になります。
これらの制限に対処するために、新しい 2 ストリーム機能融合「Tensor-Convolution and Convolution-Transformer Network」(TCCT-Net) アーキテクチャを提案します。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計します。
同時に、時間周波数領域から豊富なパターンを効率的に抽出し、処理速度を向上させるために、連続ウェーブレット変換 (CWT) を使用して情報を 2D テンソル形式で表現する「TC」ストリームを導入します。
EngageNet データセットで評価すると、提案された方法は、ベースライン モデルで使用される 98 の動作特徴と比較して、2 つの動作特徴 (頭姿勢の回転) のみを利用することで、既存のベースラインよりも優れた性能を発揮します。
さらに、比較分析により、TCCT-Net のアーキテクチャは、最先端の画像ベースのリカレント ニューラル ネットワーク (RNN) 手法と比較して推論速度が桁違いに向上していることが示されています。
コードは https://github.com/vedernikovphoto/TCCT_Net で公開されます。

要約(オリジナル)

Engagement analysis finds various applications in healthcare, education, advertisement, services. Deep Neural Networks, used for analysis, possess complex architecture and need large amounts of input data, computational power, inference time. These constraints challenge embedding systems into devices for real-time use. To address these limitations, we present a novel two-stream feature fusion ‘Tensor-Convolution and Convolution-Transformer Network’ (TCCT-Net) architecture. To better learn the meaningful patterns in the temporal-spatial domain, we design a ‘CT’ stream that integrates a hybrid convolutional-transformer. In parallel, to efficiently extract rich patterns from the temporal-frequency domain and boost processing speed, we introduce a ‘TC’ stream that uses Continuous Wavelet Transform (CWT) to represent information in a 2D tensor form. Evaluated on the EngageNet dataset, the proposed method outperforms existing baselines, utilizing only two behavioral features (head pose rotations) compared to the 98 used in baseline models. Furthermore, comparative analysis shows TCCT-Net’s architecture offers an order-of-magnitude improvement in inference speed compared to state-of-the-art image-based Recurrent Neural Network (RNN) methods. The code will be released at https://github.com/vedernikovphoto/TCCT_Net.

arxiv情報

著者 Alexander Vedernikov,Puneet Kumar,Haoyu Chen,Tapio Seppanen,Xiaobai Li
発行日 2024-05-14 13:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク