ARBEx: Attentive Feature Extraction with Reliability Balancing for Robust Facial Expression Learning

要約

この論文では、フレームワーク ARBEx を紹介します。これは、表情学習 (FEL) タスクにおける貧弱なクラス分布、バイアス、不確実性に対処するための信頼性バランシングを備えた、Vision Transformer によって駆動される新しい注意深い特徴抽出フレームワークです。
データを最大限に活用するために、ウィンドウベースのクロスアテンション ViT とともに、いくつかのデータ前処理および精製方法を強化します。
また、ラベル分布とマルチヘッドセルフアテンションメカニズムを備えた埋め込み空間で学習可能なアンカーポイントを採用し、信頼性バランシングによる弱い予測に対するパフォーマンスを最適化します。これは、アンカーポイント、アテンションスコア、信頼値を活用して回復力を強化する戦略です。
ラベル予測の。
正しいラベル分類を保証し、モデルの識別力を向上させるために、アンカー ポイント間の大きなマージンを促進するアンカー損失を導入します。
さらに、マルチヘッドのセルフ アテンション メカニズムもトレーニング可能であり、正確なラベルを識別する上で重要な役割を果たします。
このアプローチは、予測の信頼性を向上させるための重要な要素を提供し、最終的な予測能力に大きなプラスの効果をもたらします。
私たちの適応モデルは、あらゆるディープ ニューラル ネットワークと統合して、さまざまな認識タスクにおける課題を未然に防ぐことができます。
さまざまな状況で行われた広範な実験によると、私たちの戦略は現在の最先端の方法論を上回っています。

要約(オリジナル)

In this paper, we introduce a framework ARBEx, a novel attentive feature extraction framework driven by Vision Transformer with reliability balancing to cope against poor class distributions, bias, and uncertainty in the facial expression learning (FEL) task. We reinforce several data pre-processing and refinement methods along with a window-based cross-attention ViT to squeeze the best of the data. We also employ learnable anchor points in the embedding space with label distributions and multi-head self-attention mechanism to optimize performance against weak predictions with reliability balancing, which is a strategy that leverages anchor points, attention scores, and confidence values to enhance the resilience of label predictions. To ensure correct label classification and improve the models’ discriminative power, we introduce anchor loss, which encourages large margins between anchor points. Additionally, the multi-head self-attention mechanism, which is also trainable, plays an integral role in identifying accurate labels. This approach provides critical elements for improving the reliability of predictions and has a substantial positive effect on final prediction capabilities. Our adaptive model can be integrated with any deep neural network to forestall challenges in various recognition tasks. Our strategy outperforms current state-of-the-art methodologies, according to extensive experiments conducted in a variety of contexts.

arxiv情報

著者 Azmine Toushik Wasi,Karlo Šerbetar,Raima Islam,Taki Hasan Rafi,Dong-Kyu Chae
発行日 2023-07-14 17:02:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク