ARBEx: Attentive Feature Extraction with Reliability Balancing for Robust Facial Expression Learning

要約

タイトル:ARBEx:頑健な表情学習のための信頼度バランスに基づくアテンション特徴抽出フレームワーク

要約:ARBExは、ビジョン トランスフォーマーによって駆動される新しいアテンション特徴抽出フレームワークであり、顔表情学習(FEL)タスクでの不均衡なクラス分布、バイアス、不確実性に対処するために信頼度バランスを採用しています。以下がARBExの主な特徴です。

– データの前処理およびリファインメントとして、ウィンドウベースのクロスアテンションViTを使用する。
– ラベル分布と多頭自己アテンション機構を使用した埋め込み空間で学習可能なアンカーポイントを採用することで、信頼度バランスに対する最適性を向上させる。
– アンカー損失を導入することで、正しいラベル分類を確実にし、モデルの識別能力を改善させる。
– 訓練可能な多頭自己アテンション機構を使用して、正確なラベルを識別する。

これらの特徴により、ARBExはラベル予測の信頼性を向上させ、さまざまな認識タスクで課題を回避することができます。実験結果では、ARBExの戦略が現在の最先端方法よりも優れていることが示されました。

要約(オリジナル)

In this paper, we introduce a framework ARBEx, a novel attentive feature extraction framework driven by Vision Transformer with reliability balancing to cope against poor class distributions, bias, and uncertainty in the facial expression learning (FEL) task. We reinforce several data pre-processing and refinement methods along with a window-based cross-attention ViT to squeeze the best of the data. We also employ learnable anchor points in the embedding space with label distributions and multi-head self-attention mechanism to optimize performance against weak predictions with reliability balancing, which is a strategy that leverages anchor points, attention scores, and confidence values to enhance the resilience of label predictions. To ensure correct label classification and improve the models’ discriminative power, we introduce anchor loss, which encourages large margins between anchor points. Additionally, the multi-head self-attention mechanism, which is also trainable, plays an integral role in identifying accurate labels. This approach provides critical elements for improving the reliability of predictions and has a substantial positive effect on final prediction capabilities. Our adaptive model can be integrated with any deep neural network to forestall challenges in various recognition tasks. Our strategy outperforms current state-of-the-art methodologies, according to extensive experiments conducted in a variety of contexts.

arxiv情報

著者 Azmine Toushik Wasi,Karlo Šerbetar,Raima Islam,Taki Hasan Rafi,Dong-Kyu Chae
発行日 2023-05-02 15:10:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク