xLSTM-FER: Enhancing Student Expression Recognition with Extended Vision Long Short-Term Memory Network

要約

生徒の表情認識は、学習経験や感情状態を評価するための重要なツールとなっています。
この論文では、拡張長短期記憶 (xLSTM) から派生した新しいアーキテクチャである xLSTM-FER を紹介します。xLSTM-FER は、生徒の表情認識のための高度なシーケンス処理機能を通じて表情認識の精度と効率を向上させるように設計されています。
xLSTM-FER は、入力画像を一連のパッチに分割し、xLSTM ブロックのスタックを利用してこれらのパッチを処理することによって、入力画像を処理します。
xLSTM-FER は、現実世界の生徒の顔の表情の微妙な変化を捉え、シーケンス内の時空間関係を学習することで認識精度を向上させることができます。
CK+、RAF-DF、および FERplus の実験では、発現認識タスクにおける xLSTM-FER の可能性が実証され、標準データセットでの最先端の方法と比較して優れたパフォーマンスが示されています。
xLSTM-FER は計算量とメモリが線形であるため、高解像度画像の処理に特に適しています。
さらに、xLSTM-FER の設計により、追加の計算を行わずに画像などの非順次入力を効率的に処理できます。

要約(オリジナル)

Student expression recognition has become an essential tool for assessing learning experiences and emotional states. This paper introduces xLSTM-FER, a novel architecture derived from the Extended Long Short-Term Memory (xLSTM), designed to enhance the accuracy and efficiency of expression recognition through advanced sequence processing capabilities for student facial expression recognition. xLSTM-FER processes input images by segmenting them into a series of patches and leveraging a stack of xLSTM blocks to handle these patches. xLSTM-FER can capture subtle changes in real-world students’ facial expressions and improve recognition accuracy by learning spatial-temporal relationships within the sequence. Experiments on CK+, RAF-DF, and FERplus demonstrate the potential of xLSTM-FER in expression recognition tasks, showing better performance compared to state-of-the-art methods on standard datasets. The linear computational and memory complexity of xLSTM-FER make it particularly suitable for handling high-resolution images. Moreover, the design of xLSTM-FER allows for efficient processing of non-sequential inputs such as images without additional computation.

arxiv情報

著者 Qionghao Huang,Jili Chen
発行日 2024-10-07 14:29:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク