SIME: Enhancing Policy Self-Improvement with Modal-level Exploration

要約

自己改善には、ロボットシステムが最初に人間が提供したデータから学習し、環境との相互作用を通じて徐々に能力を高めていく必要がある。これは、人間が継続的な練習を通じてスキルを向上させる方法と似ている。しかし、効果的な自己改善を達成することは困難であり、その主な理由は、ロボットがインタラクション中に既存の能力を繰り返す傾向があり、学習のための新しい貴重なデータを生成できないことが多いからである。本論文では、自己改善を成功させる鍵である、モードレベルの探索とデータ選択を明らかにする。ポリシーの実行中にモーダルレベルの探索メカニズムを組み込むことで、ロボットはより多様でマルチモーダルなインタラクションを生み出すことができる。同時に、これらのインタラクションから最も価値のある試行と高品質のセグメントを選択して学習する。我々は、シミュレーションベンチマークと実世界実験の両方において、効果的なロボットの自己改善を実証することに成功した。自己改善能力により、よりロバストで成功率の高いロボット制御戦略を低コストで開発することが可能になる。我々のコードと実験スクリプトは、https://ericjin2002.github.io/SIME/ で入手可能である。

要約(オリジナル)

Self-improvement requires robotic systems to initially learn from human-provided data and then gradually enhance their capabilities through interaction with the environment. This is similar to how humans improve their skills through continuous practice. However, achieving effective self-improvement is challenging, primarily because robots tend to repeat their existing abilities during interactions, often failing to generate new, valuable data for learning. In this paper, we identify the key to successful self-improvement: modal-level exploration and data selection. By incorporating a modal-level exploration mechanism during policy execution, the robot can produce more diverse and multi-modal interactions. At the same time, we select the most valuable trials and high-quality segments from these interactions for learning. We successfully demonstrate effective robot self-improvement on both simulation benchmarks and real-world experiments. The capability for self-improvement will enable us to develop more robust and high-success-rate robotic control strategies at a lower cost. Our code and experiment scripts are available at https://ericjin2002.github.io/SIME/

arxiv情報

著者 Yang Jin,Jun Lv,Wenye Yu,Hongjie Fang,Yong-Lu Li,Cewu Lu
発行日 2025-05-02 17:13:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO | SIME: Enhancing Policy Self-Improvement with Modal-level Exploration はコメントを受け付けていません

Wiki-TabNER: Integrating Named Entity Recognition into Wikipedia Tables

要約

表解釈タスクの解決に対する関心は年々高まっているが、それでもなお、過度に単純化された可能性のある既存のデータセットに依存している。これは、徹底的な評価のためのデータセットの有効性を低下させ、実世界に現れる表を正確に表現できない可能性がある。既存のベンチマークデータセットを充実させるために、我々は新しい、より挑戦的なデータセットを抽出し、注釈を付ける。提案するWiki-TabNERデータセットは、セルごとに複数のエンティティを含む複雑なテーブルを特徴としており、名前付きエンティティはDBpediaクラスを用いてラベル付けされている。このデータセットは、テーブル内の名前付きエンティティ認識(NER)タスクを扱うために特別に設計されているが、エンティティリンキングタスクを評価するための、より困難なデータセットとしても利用できる。本論文では、Wiki-TabNERデータセットの特徴と、ラベリングプロセスについて述べる。また、新しい大規模言語モデルをテーブル内NERタスクで評価するためのプロンプトフレームワークを提案する。最後に、モデルが遭遇した課題を洞察し、提案されたデータセットの限界を理解するために、定性的な分析を行う。

要約(オリジナル)

Interest in solving table interpretation tasks has grown over the years, yet it still relies on existing datasets that may be overly simplified. This is potentially reducing the effectiveness of the dataset for thorough evaluation and failing to accurately represent tables as they appear in the real-world. To enrich the existing benchmark datasets, we extract and annotate a new, more challenging dataset. The proposed Wiki-TabNER dataset features complex tables containing several entities per cell, with named entities labeled using DBpedia classes. This dataset is specifically designed to address named entity recognition (NER) task within tables, but it can also be used as a more challenging dataset for evaluating the entity linking task. In this paper we describe the distinguishing features of the Wiki-TabNER dataset and the labeling process. In addition, we propose a prompting framework for evaluating the new large language models on the within tables NER task. Finally, we perform qualitative analysis to gain insights into the challenges encountered by the models and to understand the limitations of the proposed~dataset.

arxiv情報

著者 Aneta Koleva,Martin Ringsquandl,Ahmed Hatem,Thomas Runkler,Volker Tresp
発行日 2025-05-02 17:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Wiki-TabNER: Integrating Named Entity Recognition into Wikipedia Tables はコメントを受け付けていません

Fine-Tuning Without Forgetting: Adaptation of YOLOv8 Preserves COCO Performance

要約

事前に訓練された大規模な物体検出器の成功は、下流の多様なタスクへの適応性にかかっている。ファインチューニングは標準的な適応方法であるが、これらのモデルを難易度の高い細粒度領域に特化させるためには、特徴粒度を注意深く考慮する必要がある。そこで重要な疑問が残る。それは、元の一般的な能力を壊滅的に忘れることなく、特化されたタスクに最適化するために、事前に訓練されたバックボーンをどの程度深くファインチューニングすべきか、ということである。そこで、微調整の深さの影響を評価する体系的な実証研究を行う。標準的なYOLOv8nモデルを、バックボーン層の凍結を徐々に解除し(22層、15層、10層の凍結点)、トレーニングすることで、カスタムのきめ細かい果物検出データセットに適応させた。性能は、ターゲットフルーツデータセットと、デュアルヘッド評価アーキテクチャを使用したオリジナルのCOCO検証セットの両方で厳密に評価された。その結果、より深いファインチューニング(レイヤー10まで凍結解除)により、ヘッドトレーニングのみと比較して、きめの細かい果物タスクで大幅な性能向上(例えば、絶対mAP50で+10%)が得られることが明確に示された。驚くべきことに、この大幅な適応と特殊化により、テストしたすべての凍結レベルにおいて、COCOベンチマークの性能低下はごくわずか(絶対mAP差0.1%未満)であった。我々は、バックボーンの中盤から後半にかけての特徴を適応させることが、きめの細かい特殊化に非常に有効であると結論付けた。特に、複雑なドメインをターゲットとする場合や、特化した性能を最大化することが最重要である場合、より深い微調整戦略を探求するための説得力のある事例を提示している。

要約(オリジナル)

The success of large pre-trained object detectors hinges on their adaptability to diverse downstream tasks. While fine-tuning is the standard adaptation method, specializing these models for challenging fine-grained domains necessitates careful consideration of feature granularity. The critical question remains: how deeply should the pre-trained backbone be fine-tuned to optimize for the specialized task without incurring catastrophic forgetting of the original general capabilities? Addressing this, we present a systematic empirical study evaluating the impact of fine-tuning depth. We adapt a standard YOLOv8n model to a custom, fine-grained fruit detection dataset by progressively unfreezing backbone layers (freeze points at layers 22, 15, and 10) and training. Performance was rigorously evaluated on both the target fruit dataset and, using a dual-head evaluation architecture, on the original COCO validation set. Our results demonstrate unequivocally that deeper fine-tuning (unfreezing down to layer 10) yields substantial performance gains (e.g., +10\% absolute mAP50) on the fine-grained fruit task compared to only training the head. Strikingly, this significant adaptation and specialization resulted in negligible performance degradation (<0.1\% absolute mAP difference) on the COCO benchmark across all tested freeze levels. We conclude that adapting mid-to-late backbone features is highly effective for fine-grained specialization. Critically, our results demonstrate this adaptation can be achieved without the commonly expected penalty of catastrophic forgetting, presenting a compelling case for exploring deeper fine-tuning strategies, particularly when targeting complex domains or when maximizing specialized performance is paramount.

arxiv情報

著者 Vishal Gandhi,Sagar Gandhi
発行日 2025-05-02 05:27:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Fine-Tuning Without Forgetting: Adaptation of YOLOv8 Preserves COCO Performance はコメントを受け付けていません

Edge-preserving Image Denoising via Multi-scale Adaptive Statistical Independence Testing

要約

エッジ検出は画像処理において非常に重要であるが、既存の方法ではエッジマップが過度に詳細になり、鮮明さに影響を与えることが多い。固定ウィンドウによる統計的検定は、スケールの不一致や計算の冗長性といった問題に直面している。これらに対処するために、我々は新しいマルチスケール適応的独立性検定に基づくエッジ検出とノイズ除去法(EDD-MAIT)を提案する。勾配駆動型適応窓戦略により、窓サイズを動的に調整し、ディテールの保存とノイズ抑制を改善する。EDD-MAITは、BSDS500およびBIPEDデータセットにおいて、Fスコア、MSE、PSNRの改善、実行時間の短縮により、従来の手法や学習ベースの手法を凌駕し、より優れた頑健性、精度、効率を達成する。また、ガウスノイズに対する頑健性も示し、ノイズの多い環境でも正確できれいなエッジマップを生成する。

要約(オリジナル)

Edge detection is crucial in image processing, but existing methods often produce overly detailed edge maps, affecting clarity. Fixed-window statistical testing faces issues like scale mismatch and computational redundancy. To address these, we propose a novel Multi-scale Adaptive Independence Testing-based Edge Detection and Denoising (EDD-MAIT), a Multi-scale Adaptive Statistical Testing-based edge detection and denoising method that integrates a channel attention mechanism with independence testing. A gradient-driven adaptive window strategy adjusts window sizes dynamically, improving detail preservation and noise suppression. EDD-MAIT achieves better robustness, accuracy, and efficiency, outperforming traditional and learning-based methods on BSDS500 and BIPED datasets, with improvements in F-score, MSE, PSNR, and reduced runtime. It also shows robustness against Gaussian noise, generating accurate and clean edge maps in noisy environments.

arxiv情報

著者 Ruyu Yan,Da-Qing Zhang
発行日 2025-05-02 06:09:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Edge-preserving Image Denoising via Multi-scale Adaptive Statistical Independence Testing はコメントを受け付けていません

UDGS-SLAM : UniDepth Assisted Gaussian Splatting for Monocular SLAM

要約

最近の単眼神経奥行き推定における進歩、特にUniDepthネットワークによって達成された進歩は、単眼SLAMのためのガウススプラッティングフレームワーク内にUniDepthを統合する研究を促している。本研究では、ガウススプラッティングフレームワーク内での深度推定にRGB-Dセンサを必要としない新しいアプローチであるUDGS-SLAMを提示する。UDGS-SLAMは、推定奥行きの局所的な一貫性を確保するために統計的フィルタリングを採用し、カメラ軌道とガウスシーン表現パラメータを共同で最適化する。提案手法は、高忠実度のレンダリング画像とカメラ軌道の低TERMSEを達成する。UDGS-SLAMの性能は、TUM RGB-Dデータセットを用いて厳密に評価され、いくつかのベースライン手法とのベンチマークにより、様々なシナリオにおいて優れた性能が実証された。さらに、設計上の選択を検証し、異なるネットワークバックボーンエンコーダがシステム性能に与える影響を調査するために、アブレーション研究が実施された。

要約(オリジナル)

Recent advancements in monocular neural depth estimation, particularly those achieved by the UniDepth network, have prompted the investigation of integrating UniDepth within a Gaussian splatting framework for monocular SLAM. This study presents UDGS-SLAM, a novel approach that eliminates the necessity of RGB-D sensors for depth estimation within Gaussian splatting framework. UDGS-SLAM employs statistical filtering to ensure local consistency of the estimated depth and jointly optimizes camera trajectory and Gaussian scene representation parameters. The proposed method achieves high-fidelity rendered images and low ATERMSE of the camera trajectory. The performance of UDGS-SLAM is rigorously evaluated using the TUM RGB-D dataset and benchmarked against several baseline methods, demonstrating superior performance across various scenarios. Additionally, an ablation study is conducted to validate design choices and investigate the impact of different network backbone encoders on system performance.

arxiv情報

著者 Mostafa Mansour,Ahmed Abdelsalam,Ari Happonen,Jari Porras,Esa Rahtu
発行日 2025-05-02 06:25:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | UDGS-SLAM : UniDepth Assisted Gaussian Splatting for Monocular SLAM はコメントを受け付けていません

Edge Detection based on Channel Attention and Inter-region Independence Test

要約

既存のエッジ検出手法は、ノイズの増幅や非サリエントなディテールの過剰な保持に悩まされることが多く、高精度な産業シナリオへの適用が制限されている。これらの課題に対処するために、我々はCAM-EDITを提案する。CAM-EDITは、チャネルアテンションメカニズム(Channel Attention Mechanism: CAM)と独立性テストによるエッジ検出(Edge Detection via Independence Testing: EDIT)を統合した新しいフレームワークである。CAMモジュールはマルチチャンネルフュージョンにより識別可能なエッジ特徴を適応的に強化し、EDITモジュールは領域ごとの統計的独立性分析(フィッシャーの正確検定とカイ二乗検定を使用)を用いて無相関ノイズを抑制する。BSDS500とNYUDv2データセットを用いた広範な実験により、最先端の性能が実証された。9つの比較アルゴリズムの中で、CAM-EDITのFメジャースコアは0.635と0.460であり、従来の手法(Canny、CannySR)に対して19.2%から26.5%の改善であり、最新の学習ベースの手法(TIP2020、MSCNGP)よりも優れている。ノイズ耐性評価では、ベースライン手法と比較して、ガウスノイズ下でPSNRが2.2%向上した。定性的な結果は、アーチファクトを低減したよりきれいなエッジマップを示し、高精度の産業用途への可能性を示している。

要約(オリジナル)

Existing edge detection methods often suffer from noise amplification and excessive retention of non-salient details, limiting their applicability in high-precision industrial scenarios. To address these challenges, we propose CAM-EDIT, a novel framework that integrates Channel Attention Mechanism (CAM) and Edge Detection via Independence Testing (EDIT). The CAM module adaptively enhances discriminative edge features through multi-channel fusion, while the EDIT module employs region-wise statistical independence analysis (using Fisher’s exact test and chi-square test) to suppress uncorrelated noise.Extensive experiments on BSDS500 and NYUDv2 datasets demonstrate state-of-the-art performance. Among the nine comparison algorithms, the F-measure scores of CAM-EDIT are 0.635 and 0.460, representing improvements of 19.2\% to 26.5\% over traditional methods (Canny, CannySR), and better than the latest learning based methods (TIP2020, MSCNGP). Noise robustness evaluations further reveal a 2.2\% PSNR improvement under Gaussian noise compared to baseline methods. Qualitative results exhibit cleaner edge maps with reduced artifacts, demonstrating its potential for high-precision industrial applications.

arxiv情報

著者 Ru-yu Yan,Da-Qing Zhang
発行日 2025-05-02 06:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Edge Detection based on Channel Attention and Inter-region Independence Test はコメントを受け付けていません

Transferable Adversarial Attacks on Black-Box Vision-Language Models

要約

Vision Large Language Models(VLLM)は、テキストと画像の両方からなる入力に対して高度な機能を提供するために、ますます導入が進んでいる。先行研究では、敵対的な攻撃は、テキストのみや視覚のみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行できることが示されているが、そのような脆弱性の範囲と有効性は、VLLMについては未調査のままである。我々は、標的を絞った敵対的な例が、GPT-4o、Claude、Geminiのような広く使用されているプロプライエタリなVLLMに高度に移植可能であることを示す包括的な分析を提示する。攻撃者は、危険なコンテンツを安全であると誤認したり、機密または制限された素材を見落としたり、攻撃者の意図に沿った詳細で不正確な応答を生成するなど、攻撃者が選択した特定の視覚情報の解釈を誘導するために摂動を細工できることを示す。さらに、普遍的な摂動(幅広い画像群に適用可能な修正)が、複数の独自のVLLMにおいて一貫してこれらの誤認識を誘導できることを発見した。物体認識、視覚的質問応答、画像キャプションに関する我々の実験結果は、この脆弱性が現在の最先端モデルに共通していることを示し、VLLMの安全でセキュアな展開を保証するための強固な緩和策の緊急の必要性を強調している。

要約(オリジナル)

Vision Large Language Models (VLLMs) are increasingly deployed to offer advanced capabilities on inputs comprising both text and images. While prior research has shown that adversarial attacks can transfer from open-source to proprietary black-box models in text-only and vision-only contexts, the extent and effectiveness of such vulnerabilities remain underexplored for VLLMs. We present a comprehensive analysis demonstrating that targeted adversarial examples are highly transferable to widely-used proprietary VLLMs such as GPT-4o, Claude, and Gemini. We show that attackers can craft perturbations to induce specific attacker-chosen interpretations of visual information, such as misinterpreting hazardous content as safe, overlooking sensitive or restricted material, or generating detailed incorrect responses aligned with the attacker’s intent. Furthermore, we discover that universal perturbations — modifications applicable to a wide set of images — can consistently induce these misinterpretations across multiple proprietary VLLMs. Our experimental results on object recognition, visual question answering, and image captioning show that this vulnerability is common across current state-of-the-art models, and underscore an urgent need for robust mitigations to ensure the safe and secure deployment of VLLMs.

arxiv情報

著者 Kai Hu,Weichen Yu,Li Zhang,Alexander Robey,Andy Zou,Chengming Xu,Haoqi Hu,Matt Fredrikson
発行日 2025-05-02 06:51:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Transferable Adversarial Attacks on Black-Box Vision-Language Models はコメントを受け付けていません

GeloVec: Higher Dimensional Geometric Smoothing for Coherent Visual Feature Extraction in Image Segmentation

要約

本稿では、セマンティックセグメンテーションのための新しいCNNベースの注意平滑化フレームワークであるGeloVecを紹介する。既存の注意に基づくセグメンテーション手法が、特徴マッピング中の境界の不安定性や文脈の不連続性に悩まされるのに対し、我々のフレームワークは、視覚的に首尾一貫した領域間のロバストな多様体関係を確立するために、高次元幾何学的平滑化手法を実装する。GeloVecは、修正されたチェビシェフ距離メトリクスと多空間変換を組み合わせ、安定化された特徴抽出によってセグメンテーション精度を向上させる。核となる技術革新は、n次元特徴空間における幾何学的距離を計算する適応的サンプリング重みシステムにあり、クラス内の均質性を維持しながら、優れたエッジ保存を達成する。多空間変換行列は、直交基底ベクトルによるテンソリアル投影を組み込み、計算効率を犠牲にすることなく、より識別性の高い特徴表現を作成する。複数のベンチマークデータセットにおける実験的検証により、セグメンテーション性能の大幅な向上が実証され、Caltech Birds-200、LSDSC、FSSDデータセットにおいて、それぞれ2.1%、2.7%、2.4%の平均Intersection over Union (mIoU)の向上が、最先端の手法と比較された。GeloVecのリーマン幾何学の数学的基礎は、セグメンテーションの安定性を理論的に保証する。重要な点として、我々のフレームワークは測地変換の並列実装により計算効率を維持し、変換中の情報損失がないため、分野横断的な強力な一般化能力を示す。

要約(オリジナル)

This paper introduces GeloVec, a new CNN-based attention smoothing framework for semantic segmentation that addresses critical limitations in conventional approaches. While existing attention-backed segmentation methods suffer from boundary instability and contextual discontinuities during feature mapping, our framework implements a higher-dimensional geometric smoothing method to establish a robust manifold relationships between visually coherent regions. GeloVec combines modified Chebyshev distance metrics with multispatial transformations to enhance segmentation accuracy through stabilized feature extraction. The core innovation lies in the adaptive sampling weights system that calculates geometric distances in n-dimensional feature space, achieving superior edge preservation while maintaining intra-class homogeneity. The multispatial transformation matrix incorporates tensorial projections with orthogonal basis vectors, creating more discriminative feature representations without sacrificing computational efficiency. Experimental validation across multiple benchmark datasets demonstrates significant improvements in segmentation performance, with mean Intersection over Union (mIoU) gains of 2.1%, 2.7%, and 2.4% on Caltech Birds-200, LSDSC, and FSSD datasets respectively compared to state-of-the-art methods. GeloVec’s mathematical foundation in Riemannian geometry provides theoretical guarantees on segmentation stability. Importantly, our framework maintains computational efficiency through parallelized implementation of geodesic transformations and exhibits strong generalization capabilities across disciplines due to the absence of information loss during transformations.

arxiv情報

著者 Boris Kriuk,Matey Yordanov
発行日 2025-05-02 07:07:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | GeloVec: Higher Dimensional Geometric Smoothing for Coherent Visual Feature Extraction in Image Segmentation はコメントを受け付けていません

Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs

要約

きめ細かな視覚認識(FGVR)には、視覚的に類似したカテゴリーを区別することが含まれるが、クラス間の微妙な違いや、専門家が注釈を付けた大規模なデータセットの必要性から、本質的に困難である。医療画像のような領域では、プライバシーへの懸念や高いアノテーションコストのような問題のために、そのようなキュレーションされたデータセットは利用できません。ラベル付けされたデータがないこのようなシナリオでは、FGVRモデルは事前に定義されたトレーニングラベルのセットに頼ることができないため、予測のための制約のない出力空間を持つ。我々はこのタスクを語彙フリーFGVR(Vocabulary-Free FGVR:VF-FGVR)と呼び、モデルは事前のラベル情報なしに制約のない出力空間からラベルを予測しなければならない。最近のMLLM(Multimodal Large Language Models)はVF-FGVRの可能性を示しているが、各テスト入力に対してこれらのモデルを問い合わせることは、高いコストと法外な推論時間のために非現実的である。これらの限界に対処するために、我々はMLLMによって生成されたラベルを使用して下流のCLIPモデルを微調整する新しいアプローチである、↪NeaR↩textbf{Nea}rest-Neighbor Label↪NeaR↩ Refinement(NeaR)を導入する。本アプローチでは、ラベル生成にMLLMを活用し、ラベルのない小さな訓練セットから弱い教師ありデータセットを構築する。NeaRは、MLLMによって生成されるラベルに固有のノイズ、確率性、オープンエンド性を扱うように設計されており、効率的なVF-FGVRの新しいベンチマークを確立する。

要約(オリジナル)

Fine-grained Visual Recognition (FGVR) involves distinguishing between visually similar categories, which is inherently challenging due to subtle inter-class differences and the need for large, expert-annotated datasets. In domains like medical imaging, such curated datasets are unavailable due to issues like privacy concerns and high annotation costs. In such scenarios lacking labeled data, an FGVR model cannot rely on a predefined set of training labels, and hence has an unconstrained output space for predictions. We refer to this task as Vocabulary-Free FGVR (VF-FGVR), where a model must predict labels from an unconstrained output space without prior label information. While recent Multimodal Large Language Models (MLLMs) show potential for VF-FGVR, querying these models for each test input is impractical because of high costs and prohibitive inference times. To address these limitations, we introduce \textbf{Nea}rest-Neighbor Label \textbf{R}efinement (NeaR), a novel approach that fine-tunes a downstream CLIP model using labels generated by an MLLM. Our approach constructs a weakly supervised dataset from a small, unlabeled training set, leveraging MLLMs for label generation. NeaR is designed to handle the noise, stochasticity, and open-endedness inherent in labels generated by MLLMs, and establishes a new benchmark for efficient VF-FGVR.

arxiv情報

著者 Hari Chandana Kuchibhotla,Sai Srinivas Kancheti,Abbavaram Gowtham Reddy,Vineeth N Balasubramanian
発行日 2025-05-02 07:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs はコメントを受け付けていません

MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network

要約

感情表現は一過性のものであり、マルチモーダルな手がかりの時間的なずれがあるため、野生動物における動的な感情認識は依然として困難である。従来のアプローチでは、感情価(valence)と覚醒度(arousal)を予測するが、この2つの次元の間の本質的な相関関係を見落としていることが多い。提案するMulti-modal Attention for Valence-Arousal Emotion Network (MAVEN)は、双方向のクロスモーダル注意メカニズムを介して、視覚、音声、テキストモダリティを統合する。MAVENは、モダリティに特化したエンコーダを用いて、同期されたビデオフレーム、オーディオセグメント、トランスクリプトから特徴を抽出し、ラッセルのcircumplexモデルに従って極座標で感情を予測する。MAVENを用いたAff-Wild2データセットの評価では、一致相関係数(CCC)0.3061を達成し、CCC0.22のResNet-50ベースラインモデルを上回った。多段階アーキテクチャは、会話ビデオにおける感情表現の微妙で一時的な性質を捉え、実世界の状況における感情認識を向上させます。コードはhttps://github.com/Vrushank-Ahire/MAVEN_8th_ABAW。

要約(オリジナル)

Dynamic emotion recognition in the wild remains challenging due to the transient nature of emotional expressions and temporal misalignment of multi-modal cues. Traditional approaches predict valence and arousal and often overlook the inherent correlation between these two dimensions. The proposed Multi-modal Attention for Valence-Arousal Emotion Network (MAVEN) integrates visual, audio, and textual modalities through a bi-directional cross-modal attention mechanism. MAVEN uses modality-specific encoders to extract features from synchronized video frames, audio segments, and transcripts, predicting emotions in polar coordinates following Russell’s circumplex model. The evaluation of the Aff-Wild2 dataset using MAVEN achieved a concordance correlation coefficient (CCC) of 0.3061, surpassing the ResNet-50 baseline model with a CCC of 0.22. The multistage architecture captures the subtle and transient nature of emotional expressions in conversational videos and improves emotion recognition in real-world situations. The code is available at: https://github.com/Vrushank-Ahire/MAVEN_8th_ABAW

arxiv情報

著者 Vrushank Ahire,Kunal Shah,Mudasir Nazir Khan,Nikhil Pakhale,Lownish Rai Sookha,M. A. Ganaie,Abhinav Dhall
発行日 2025-05-02 07:17:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network はコメントを受け付けていません