要約
この研究では、MobileNETV4とマルチスケール3D MLPミキサーベースの時間凝集モジュールを使用した効率的な時空特徴抽出のアプローチを提示します。
普遍的な逆ボトルネック(UIB)ブロックを備えたMobileNetv4は、入力画像シーケンスから階層的特徴表現を抽出するためのバックボーンとして機能し、計算効率とリッチセマンティックエンコーディングの両方を確保します。
時間的依存関係をキャプチャするために、構造の完全性を維持しながら複数の解像度で空間機能を処理する3レベルのMLPミキサーモジュールを導入します。
ABAW 8番目の競争での実験結果は、私たちのアプローチの有効性を示しており、感情的な行動分析における有望なパフォーマンスを示しています。
効率的なビジョンバックボーンを構造化された時間モデリングメカニズムと統合することにより、提案されたフレームワークは、計算効率と予測精度のバランスを達成し、モバイルおよび組み込みコンピューティング環境でのリアルタイムアプリケーションに適しています。
要約(オリジナル)
In this study, we present an approach for efficient spatiotemporal feature extraction using MobileNetV4 and a multi-scale 3D MLP-Mixer-based temporal aggregation module. MobileNetV4, with its Universal Inverted Bottleneck (UIB) blocks, serves as the backbone for extracting hierarchical feature representations from input image sequences, ensuring both computational efficiency and rich semantic encoding. To capture temporal dependencies, we introduce a three-level MLP-Mixer module, which processes spatial features at multiple resolutions while maintaining structural integrity. Experimental results on the ABAW 8th competition demonstrate the effectiveness of our approach, showing promising performance in affective behavior analysis. By integrating an efficient vision backbone with a structured temporal modeling mechanism, the proposed framework achieves a balance between computational efficiency and predictive accuracy, making it well-suited for real-time applications in mobile and embedded computing environments.
arxiv情報
著者 | Quoc-Tien Nguyen,Hong-Hai Nguyen,Van-Thong Huynh |
発行日 | 2025-03-13 16:38:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google