NAC-TCN: Temporal Convolutional Networks with Causal Dilated Neighborhood Attention for Emotion Understanding

要約

ビデオからの感情認識のタスクにおいて、重要な改善点は、単一のフレームではなく、時間の経過に伴う感情に焦点を当てることです。
このタスクに対処するためのアーキテクチャは、GRU、LSTM、セルフアテンション、トランスフォーマー、時間畳み込みネットワーク (TCN) など、数多くあります。
ただし、これらの方法では、メモリ使用量が多くなったり、大量の演算が行われたり、勾配が不十分になったりするという問題があります。
私たちは、因果関係を確実に理解しながら、計算量とメモリのコストを削減しながら、注意力と時間畳み込みネットワークの利点を組み込んだ、Neighborhood Attendee with Convolutions TCN (NAC-TCN) として知られる方法を提案します。
これは、畳み込みを組み込んで拡張近隣注意の因果バージョンを導入することで実現します。
私たちのモデルは、標準の感情認識データセットで必要なパラメーターを減らしながら、TCN、TCAN、LSTM、および GRU と同等、より優れた、または最先端のパフォーマンスを実現します。
簡単に再現して他のプロジェクトで使用できるように、コードをオンラインで公開しています。

要約(オリジナル)

In the task of emotion recognition from videos, a key improvement has been to focus on emotions over time rather than a single frame. There are many architectures to address this task such as GRUs, LSTMs, Self-Attention, Transformers, and Temporal Convolutional Networks (TCNs). However, these methods suffer from high memory usage, large amounts of operations, or poor gradients. We propose a method known as Neighborhood Attention with Convolutions TCN (NAC-TCN) which incorporates the benefits of attention and Temporal Convolutional Networks while ensuring that causal relationships are understood which results in a reduction in computation and memory cost. We accomplish this by introducing a causal version of Dilated Neighborhood Attention while incorporating it with convolutions. Our model achieves comparable, better, or state-of-the-art performance over TCNs, TCAN, LSTMs, and GRUs while requiring fewer parameters on standard emotion recognition datasets. We publish our code online for easy reproducibility and use in other projects.

arxiv情報

著者 Alexander Mehta,William Yang
発行日 2023-12-12 18:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク