ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation

要約

具体化されたAI、仮想現実、およびロボット工学のアプリケーションには、人間のシーン相互作用(HSI)生成が重要です。
しかし、既存の方法は、ペアの3Dシーンに依存し、目に見えない環境では利用できないトレーニングのために人間のモーションデータをキャプチャしているため、野生のシーンや再構築されたシーンなどの目に見えない環境での相互作用を合成することはできません。
ZeroHSIは、ゼロショット4Dヒトシーン相互作用合成を可能にする新しいアプローチを提示し、MOCAPデータのトレーニングの必要性を排除します。
私たちの重要な洞察は、膨大な量の自然な人間の動きと相互作用について訓練された最先端のビデオ生成モデルから人間のシーンの相互作用を蒸留し、微分可能なレンダリングを使用して人間のシーンの相互作用を再構築することです。
ZeroHSIは、地上の真実のモーションデータを必要とせずに、動的なオブジェクトを使用して、静的シーンと環境の両方で現実的な人間の動きを合成できます。
さまざまな相互作用プロンプトを持つさまざまな種類のさまざまな屋内および屋外シーンのキュレーションされたデータセットでZeroHSIを評価し、多様で文脈的に適切なヒューマンシーン相互作用を生成する能力を示しています。

要約(オリジナル)

Human-scene interaction (HSI) generation is crucial for applications in embodied AI, virtual reality, and robotics. Yet, existing methods cannot synthesize interactions in unseen environments such as in-the-wild scenes or reconstructed scenes, as they rely on paired 3D scenes and captured human motion data for training, which are unavailable for unseen environments. We present ZeroHSI, a novel approach that enables zero-shot 4D human-scene interaction synthesis, eliminating the need for training on any MoCap data. Our key insight is to distill human-scene interactions from state-of-the-art video generation models, which have been trained on vast amounts of natural human movements and interactions, and use differentiable rendering to reconstruct human-scene interactions. ZeroHSI can synthesize realistic human motions in both static scenes and environments with dynamic objects, without requiring any ground-truth motion data. We evaluate ZeroHSI on a curated dataset of different types of various indoor and outdoor scenes with different interaction prompts, demonstrating its ability to generate diverse and contextually appropriate human-scene interactions.

arxiv情報

著者 Hongjie Li,Hong-Xing Yu,Jiaman Li,Jiajun Wu
発行日 2025-03-21 16:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation はコメントを受け付けていません

Vision Transformer Based Semantic Communications for Next Generation Wireless Networks

要約

6Gネットワ​​ークの進化する景観では、セマンティックコミュニケーションは、生データの精度よりもセマンティックな意味の送信に優先順位を付けることにより、データの伝送に革命をもたらす態勢が整っています。
このペーパーでは、帯域幅の需要を最小限に抑えながら、画像伝送中に高いセマンティックの類似性を実現するように意図的に設計されたビジョントランス(VIT)ベースのセマンティック通信フレームワークを紹介します。
VITをエンコーダデコーダーフレームワークに装備することにより、提案されたアーキテクチャは、画像をトランスミッタで高セマンティックコンテンツに専門的にエンコードし、レシーバーでの現実世界のフェードとノイズの配慮を考慮して、画像を正確に再構築できます。
VITSに固有の注意メカニズムに基づいて、私たちのモデルは、そのような画像を生成するために調整された畳み込みニューラルネットワーク(CNNS)と生成的敵対的ネットワーク(GAN)よりも優れています。
提案されたVITネットワークに基づくアーキテクチャは、38 dBのピーク信号対雑音比(PSNR)を達成します。これは、異なる通信環境でセマンティックな類似性を維持するために他のディープラーニング(DL)アプローチよりも高いです。
これらの調査結果は、セマンティックコミュニケーションの重要なブレークスルーとして、VITベースのアプローチを確立しています。

要約(オリジナル)

In the evolving landscape of 6G networks, semantic communications are poised to revolutionize data transmission by prioritizing the transmission of semantic meaning over raw data accuracy. This paper presents a Vision Transformer (ViT)-based semantic communication framework that has been deliberately designed to achieve high semantic similarity during image transmission while simultaneously minimizing the demand for bandwidth. By equipping ViT as the encoder-decoder framework, the proposed architecture can proficiently encode images into a high semantic content at the transmitter and precisely reconstruct the images, considering real-world fading and noise consideration at the receiver. Building on the attention mechanisms inherent to ViTs, our model outperforms Convolution Neural Network (CNNs) and Generative Adversarial Networks (GANs) tailored for generating such images. The architecture based on the proposed ViT network achieves the Peak Signal-to-noise Ratio (PSNR) of 38 dB, which is higher than other Deep Learning (DL) approaches in maintaining semantic similarity across different communication environments. These findings establish our ViT-based approach as a significant breakthrough in semantic communications.

arxiv情報

著者 Muhammad Ahmed Mohsin,Muhammad Jazib,Zeeshan Alam,Muhmmad Farhan Khan,Muhammad Saad,Muhammad Ali Jamshed
発行日 2025-03-21 16:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, eess.SP | Vision Transformer Based Semantic Communications for Next Generation Wireless Networks はコメントを受け付けていません

SuperPC: A Single Diffusion Model for Point Cloud Completion, Upsampling, Denoising, and Colorization

要約

Point Cloud(PC)の処理タスクなど、完了、アップサンプリング、除去、および着色など、自律運転や3D再建などのアプリケーションでは重要です。
実質的な進歩にもかかわらず、以前のアプローチは、個々の問題に焦点を当てた個別のモデルを使用して、これらのタスクのそれぞれに個別に対処することがよくあります。
ただし、この孤立したアプローチは、不完全性、低解像度、ノイズ、色の欠如などの欠陥が頻繁に共存し、それぞれの欠陥が他の欠陥に影響を与え、相関するという事実を説明できません。
これらのモデルを順番に適用するだけで、各モデルからのエラーの蓄積につながり、計算コストが増加する可能性があります。
これらの課題に対処するために、4つのタスクすべてを同時に処理できる最初の統合拡散モデルであるSuperPCを導入します。
私たちのアプローチでは、同時に効率的な処理のためにこれらの4つの欠陥間の相関を活用するために、新しい空間ミックス融合戦略によって強化された3レベルの拡散フレームワークを採用しています。
SuperPCは、4つの個別のタスクすべてでの最先端の専門モデルとそれらの組み合わせを上回ることを示しています。

要約(オリジナル)

Point cloud (PC) processing tasks-such as completion, upsampling, denoising, and colorization-are crucial in applications like autonomous driving and 3D reconstruction. Despite substantial advancements, prior approaches often address each of these tasks independently, with separate models focused on individual issues. However, this isolated approach fails to account for the fact that defects like incompleteness, low resolution, noise, and lack of color frequently coexist, with each defect influencing and correlating with the others. Simply applying these models sequentially can lead to error accumulation from each model, along with increased computational costs. To address these challenges, we introduce SuperPC, the first unified diffusion model capable of concurrently handling all four tasks. Our approach employs a three-level-conditioned diffusion framework, enhanced by a novel spatial-mix-fusion strategy, to leverage the correlations among these four defects for simultaneous, efficient processing. We show that SuperPC outperforms the state-of-the-art specialized models as well as their combination on all four individual tasks.

arxiv情報

著者 Yi Du,Zhipeng Zhao,Shaoshu Su,Sharath Golluri,Haoze Zheng,Runmao Yao,Chen Wang
発行日 2025-03-21 16:23:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SuperPC: A Single Diffusion Model for Point Cloud Completion, Upsampling, Denoising, and Colorization はコメントを受け付けていません

HyperNVD: Accelerating Neural Video Decomposition via Hypernetworks

要約

ビデオをレイヤーベースの表現に分解することは、特定のレイヤーの独立した編集を可能にするため、クリエイティブ業界のビデオ編集を簡単にするために重要です。
既存のビデオ層分解モデルは、各ビデオで独立して訓練された暗黙の神経表現(INR)に依存しており、新しいビデオに適用されるとプロセスが時間がかかります。
この制限に気づき、新しいビデオのトレーニングを高速化するための一般的なビデオ分解モデルを学ぶためのメタ学習戦略を提案します。
私たちのモデルは、ビデオエンコーダーの埋め込みを与えられているため、コンパクトなINRベースのニューラルビデオ分解モデルのパラメーターを生成するハイパーネットワークアーキテクチャに基づいています。
当社の戦略は、単一ビデオの過剰適合の問題を軽減し、重要なことに、新しい目に見えないビデオでのビデオ分解の収束を短縮することです。
私たちのコードは、https://hypernvd.github.io/で入手できます。

要約(オリジナル)

Decomposing a video into a layer-based representation is crucial for easy video editing for the creative industries, as it enables independent editing of specific layers. Existing video-layer decomposition models rely on implicit neural representations (INRs) trained independently for each video, making the process time-consuming when applied to new videos. Noticing this limitation, we propose a meta-learning strategy to learn a generic video decomposition model to speed up the training on new videos. Our model is based on a hypernetwork architecture which, given a video-encoder embedding, generates the parameters for a compact INR-based neural video decomposition model. Our strategy mitigates the problem of single-video overfitting and, importantly, shortens the convergence of video decomposition on new, unseen videos. Our code is available at: https://hypernvd.github.io/

arxiv情報

著者 Maria Pilligua,Danna Xue,Javier Vazquez-Corral
発行日 2025-03-21 16:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HyperNVD: Accelerating Neural Video Decomposition via Hypernetworks はコメントを受け付けていません

End-to-end Adaptive Dynamic Subsampling and Reconstruction for Cardiac MRI

要約

$ \ textbf {background:} $の動的MRIの加速は、臨床応用を進め、患者の快適性を改善するために不可欠です。
一般的に、加速された動的MRI再構成のディープラーニング(DL)方法は、通常、動的獲得のすべての時間的フレームにわたって、非整頓されていない事前決定またはランダムサブサンプリングパターンを均一に適用することに依存しています。
このアプローチは、時間的相関を活用したり、ケースバイケースでサブサンプリングを最適化することに失敗します。
$ \ textbf {目的:} $は、適応動的なMRIサブサンプリングと再構成のエンドツーエンドアプローチを開発し、再構成品質を同時に最大化するカスタマイズされたサンプリングパターンを生成できます。
$ \ textbf {メソッド:} $ MRIフレームワークのエンドツーエンドの適応ダイナミックサンプリングと再構築(E2E-ADS-Recon)を紹介します。これは、アパートのダイナミックリテストの順に順応性のある再構築のために、特定のダイナミック再構築のために、各ケースに獲得旅行を各ケースに適応させる適応型ダイナミックサンプラー(ADS)を統合します。
動的な画像。
ADは、すべての時間フレームに適用されるフレーム固有のパターンまたは統一パターンのいずれかを作成できます。
E2E-ADS-Reconは、ダイナミックシネの心臓MRIデータを使用して、フレーム固有および統一された1Dまたは2Dサンプリング設定の両方で評価され、標準のサブサンプリング軌跡を使用しているVSHARPモデルと比較し、ADSがデータセット特異的スキームのために最適化されたパラメーターサンプラーに置き換えられたパイプラインと比較されます。
$ \ textbf {results:} $ e2e-ads-reconは、標準の定量的指標(SSIM、PSNR、NMSE)の観点から、特に高加速度で優れた再構築品質を示しました。
$ \ textbf {結論:} $提案されたフレームワークは再構成品質を向上させ、動的MRIアプリケーションにおけるケース固有のサブサンプリング最適化の重要性を強調します。

要約(オリジナル)

$\textbf{Background:}$ Accelerating dynamic MRI is vital for advancing clinical applications and improving patient comfort. Commonly, deep learning (DL) methods for accelerated dynamic MRI reconstruction typically rely on uniformly applying non-adaptive predetermined or random subsampling patterns across all temporal frames of the dynamic acquisition. This approach fails to exploit temporal correlations or optimize subsampling on a case-by-case basis. $\textbf{Purpose:}$ To develop an end-to-end approach for adaptive dynamic MRI subsampling and reconstruction, capable of generating customized sampling patterns maximizing at the same time reconstruction quality. $\textbf{Methods:}$ We introduce the End-to-end Adaptive Dynamic Sampling and Reconstruction (E2E-ADS-Recon) for MRI framework, which integrates an adaptive dynamic sampler (ADS) that adapts the acquisition trajectory to each case for a given acceleration factor with a state-of-the-art dynamic reconstruction network, vSHARP, for reconstructing the adaptively sampled data into a dynamic image. The ADS can produce either frame-specific patterns or unified patterns applied to all temporal frames. E2E-ADS-Recon is evaluated under both frame-specific and unified 1D or 2D sampling settings, using dynamic cine cardiac MRI data and compared with vSHARP models employing standard subsampling trajectories, as well as pipelines where ADS was replaced by parameterized samplers optimized for dataset-specific schemes. $\textbf{Results:}$ E2E-ADS-Recon exhibited superior reconstruction quality, especially at high accelerations, in terms of standard quantitative metrics (SSIM, pSNR, NMSE). $\textbf{Conclusion:}$ The proposed framework improves reconstruction quality, highlighting the importance of case-specific subsampling optimization in dynamic MRI applications.

arxiv情報

著者 George Yiasemis,Jan-Jakob Sonke,Jonas Teuwen
発行日 2025-03-21 16:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, physics.med-ph | End-to-end Adaptive Dynamic Subsampling and Reconstruction for Cardiac MRI はコメントを受け付けていません

An Iterative Feedback Mechanism for Improving Natural Language Class Descriptions in Open-Vocabulary Object Detection

要約

オープンボキャブラリーオブジェクト検出モデルの最近の進歩により、自動ターゲット認識システムは、さまざまなアプリケーションまたはミッションのために非技術的エンドユーザーによって持続可能で再利用されます。
新しい、潜在的に微妙なクラスは、モデルを再訓練する必要なく、ランタイムの直前に、フィールド内の自然言語のテキストの説明で定義できます。
テキストの埋め込み上の分析手法の組み合わせを使用して、対照的な例のための埋め込みの適切な組み合わせを使用して、目的の目的のターゲットの非技術的なユーザーの自然言語テキストの説明を改善するためのアプローチを提示します。
フィードバックメカニズムが提供する改善を定量化します。

要約(オリジナル)

Recent advances in open-vocabulary object detection models will enable Automatic Target Recognition systems to be sustainable and repurposed by non-technical end-users for a variety of applications or missions. New, and potentially nuanced, classes can be defined with natural language text descriptions in the field, immediately before runtime, without needing to retrain the model. We present an approach for improving non-technical users’ natural language text descriptions of their desired targets of interest, using a combination of analysis techniques on the text embeddings, and proper combinations of embeddings for contrastive examples. We quantify the improvement that our feedback mechanism provides by demonstrating performance with multiple publicly-available open-vocabulary object detection models.

arxiv情報

著者 Louis Y. Kim,Michelle Karker,Victoria Valledor,Seiyoung C. Lee,Karl F. Brzoska,Margaret Duff,Anthony Palladino
発行日 2025-03-21 16:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | An Iterative Feedback Mechanism for Improving Natural Language Class Descriptions in Open-Vocabulary Object Detection はコメントを受け付けていません

Leveraging V2X for Collaborative HD Maps Construction Using Scene Graph Generation

要約

高解像度(HD)マップは、自律車両ナビゲーションで重要な役割を果たし、正確性と安全性を向上させるためにオンボード認識センサーを補完します。
従来のHDマップ生成は、費用がかかり、リアルタイムのインフラストラクチャの変更をキャプチャできない専用マッピング車両に依存しています。
このホワイトペーパーでは、HDMaplanenetを提示します。HDMaplanenetは、V2X通信とシーングラフの生成を活用して、HDマップの局所的な幾何学的層を共同で構築します。
このアプローチは、前面カメラ画像からレーンセンターラインを抽出し、グラフとして表し、V2Xを介してグローバル集約のデータをクラウドに送信します。
Nuscenesデータセットの予備的な結果は、最先端の方法と比較して優れた関連性の予測性能を示しています。

要約(オリジナル)

High-Definition (HD) maps play a crucial role in autonomous vehicle navigation, complementing onboard perception sensors for improved accuracy and safety. Traditional HD map generation relies on dedicated mapping vehicles, which are costly and fail to capture real-time infrastructure changes. This paper presents HDMapLaneNet, a novel framework leveraging V2X communication and Scene Graph Generation to collaboratively construct a localized geometric layer of HD maps. The approach extracts lane centerlines from front-facing camera images, represents them as graphs, and transmits the data for global aggregation to the cloud via V2X. Preliminary results on the nuScenes dataset demonstrate superior association prediction performance compared to a state-of-the-art method.

arxiv情報

著者 Gamal Elghazaly,Raphael Frank
発行日 2025-03-21 16:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging V2X for Collaborative HD Maps Construction Using Scene Graph Generation はコメントを受け付けていません

FALCON: Fairness Learning via Contrastive Attention Approach to Continual Semantic Scene Understanding

要約

セマンティックシーンセグメンテーションでの継続的な学習は、以前に学んだ知識を維持しながら、動的環境で新しい目に見えないクラスを継続的に学習することを目的としています。
以前の研究は、継続的な学習における壊滅的な忘却と背景のシフトの課題のモデリングに焦点を当てていました。
ただし、公平性は、主要クラスとマイナーなクラスの間でパフォーマンスが低い不当な予測を引き起こすもう1つの大きな課題であり、依然として適切に対処する必要があります。
さらに、以前の方法では未知のクラスを適切にモデル化していないため、未知のクラスの間で非差別的な特徴が生成されます。
この作品は、セマンティックシーンの理解における継続的な学習への対照的な注意アプローチを介して、新しい公平性学習を提示します。
特に、最初に壊滅的な忘却と公平性の問題に対処するために、新しい公平性コントラストクラスタリングの損失を導入します。
次に、バックグラウンドシフトの問題と未知のクラスを効果的にモデル化するための注意ベースの視覚文法アプローチを提案し、異なる不明なクラスのより良い特徴表現を生成します。
実験を通じて、提案されたアプローチは、さまざまな継続的な学習ベンチマーク、つまりADE20K、Cityscapes、およびPascal VOCで最先端の(SOTA)パフォーマンスを達成します。
継続的なセマンティックセグメンテーションモデルの公平性を促進します。

要約(オリジナル)

Continual Learning in semantic scene segmentation aims to continually learn new unseen classes in dynamic environments while maintaining previously learned knowledge. Prior studies focused on modeling the catastrophic forgetting and background shift challenges in continual learning. However, fairness, another major challenge that causes unfair predictions leading to low performance among major and minor classes, still needs to be well addressed. In addition, prior methods have yet to model the unknown classes well, thus resulting in producing non-discriminative features among unknown classes. This work presents a novel Fairness Learning via Contrastive Attention Approach to continual learning in semantic scene understanding. In particular, we first introduce a new Fairness Contrastive Clustering loss to address the problems of catastrophic forgetting and fairness. Then, we propose an attention-based visual grammar approach to effectively model the background shift problem and unknown classes, producing better feature representations for different unknown classes. Through our experiments, our proposed approach achieves State-of-the-Art (SoTA) performance on different continual learning benchmarks, i.e., ADE20K, Cityscapes, and Pascal VOC. It promotes the fairness of the continual semantic segmentation model.

arxiv情報

著者 Thanh-Dat Truong,Utsav Prabhu,Bhiksha Raj,Jackson Cothren,Khoa Luu
発行日 2025-03-21 16:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FALCON: Fairness Learning via Contrastive Attention Approach to Continual Semantic Scene Understanding はコメントを受け付けていません

Exploring a Principled Framework for Deep Subspace Clustering

要約

サブスペースクラスタリングは、高次元データをサブスペース(UOS)によって近似できるという基本的な仮定に基づいて構築された古典的な監視されていない学習タスクです。
それにもかかわらず、実際のデータはしばしばUOSの仮定から逸脱しています。
この課題に対処するために、最先端の深い部分空間クラスタリングアルゴリズムは、UOS表現と自己表現係数を共同で学習しようとします。
ただし、既存のアルゴリズムの一般的なフレームワークは、壊滅的な特徴の崩壊に苦しみ、望ましいUOS表現を学習するための理論的保証がありません。
この論文では、統合された方法で構造化された表現と自己表現係数を学習するように設計されたディープサブスペースクラスタリング(Pro-DSC)の原則的なフレームワークを紹介します。
具体的には、PRO-DSCでは、学習表現に関する効果的な正則化を自己表現モデルに組み込み、正規化された自己表現モデルが特徴空間崩壊を防ぐことができることを証明し、特定の条件下で学習した最適な表現が直交界の下部の結合にあることを実証します。
さらに、PRO-DSCを実装し、理論的な調査結果を検証し、提案されているディープサブスペースクラスタリングアプローチの優れたパフォーマンスを実証するための広範な実験を実施するためのスケーラブルで効率的なアプローチを提供します。
このコードは、https://github.com/mengxianghan123/pro-dscで入手できます。

要約(オリジナル)

Subspace clustering is a classical unsupervised learning task, built on a basic assumption that high-dimensional data can be approximated by a union of subspaces (UoS). Nevertheless, the real-world data are often deviating from the UoS assumption. To address this challenge, state-of-the-art deep subspace clustering algorithms attempt to jointly learn UoS representations and self-expressive coefficients. However, the general framework of the existing algorithms suffers from a catastrophic feature collapse and lacks a theoretical guarantee to learn desired UoS representation. In this paper, we present a Principled fRamewOrk for Deep Subspace Clustering (PRO-DSC), which is designed to learn structured representations and self-expressive coefficients in a unified manner. Specifically, in PRO-DSC, we incorporate an effective regularization on the learned representations into the self-expressive model, prove that the regularized self-expressive model is able to prevent feature space collapse, and demonstrate that the learned optimal representations under certain condition lie on a union of orthogonal subspaces. Moreover, we provide a scalable and efficient approach to implement our PRO-DSC and conduct extensive experiments to verify our theoretical findings and demonstrate the superior performance of our proposed deep subspace clustering approach. The code is available at https://github.com/mengxianghan123/PRO-DSC.

arxiv情報

著者 Xianghan Meng,Zhiyuan Huang,Wei He,Xianbiao Qi,Rong Xiao,Chun-Guang Li
発行日 2025-03-21 16:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Exploring a Principled Framework for Deep Subspace Clustering はコメントを受け付けていません

United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space

要約

オーディオとビジュアルモダリティは、ビデオの2つの主要な接触チャネルであり、互いに補完的な関係を持つことが多いことがよくあります。
ただし、それらは常に互いに補完するとは限らず、視聴覚機能の表現が不十分になります。
この論文では、最も関連性の高い機能を適応的に選択して、オーディオおよび視覚モダリティ全体で最も関連性の高い機能を適応的に選択できるゲーティングメカニズムを使用して、ゲートの再帰的な関節の注意(GRJCA)を紹介します。
具体的には、補完的な関係の強さに応じて、入力機能と複数の反復の出席した特徴との間の情報の流れを制御するためのゲーティングメカニズムを導入することにより、再帰的な関節交差に関するパフォーマンスを改善します。
たとえば、モダリティが強力な補完的な関係を示す場合、ゲーティングメカニズムは、クロスアテンダーの特徴、そうでなければ参加していない機能を強調します。
システムのパフォーマンスをさらに向上させるために、すべての反復でゲーティングメカニズムを導入することにより、階層的なゲーティングアプローチも調査し、その後、各反復のゲート出力を横切る高レベルのゲーティングを行いました。
提案されたアプローチは、オーディオおよび視覚モダリティ全体で弱い補完的な関係に対処するために柔軟性を高めることにより、RJCAモデルのパフォーマンスを改善します。
提案されたアプローチの堅牢性を実証するために、挑戦的なAffWild2データセットで広範な実験が行われます。
オーディオおよび視覚モダリティ全体で弱い補完的な関係を効果的に処理することにより、提案されたモデルは、テストセット(検証セット)でそれぞれ価値と覚醒について、それぞれ0.561(0.623)および0.620(0.660)の一致相関係数(CCC)を達成します。

要約(オリジナル)

Audio and visual modalities are two predominant contact-free channels in videos, which are often expected to carry a complementary relationship with each other. However, they may not always complement each other, resulting in poor audio-visual feature representations. In this paper, we introduce Gated Recursive Joint Cross Attention (GRJCA) using a gating mechanism that can adaptively choose the most relevant features to effectively capture the synergic relationships across audio and visual modalities. Specifically, we improve the performance of Recursive Joint Cross-Attention (RJCA) by introducing a gating mechanism to control the flow of information between the input features and the attended features of multiple iterations depending on the strength of their complementary relationship. For instance, if the modalities exhibit strong complementary relationships, the gating mechanism emphasizes cross-attended features, otherwise non-attended features. To further improve the performance of the system, we also explored a hierarchical gating approach by introducing a gating mechanism at every iteration, followed by high-level gating across the gated outputs of each iteration. The proposed approach improves the performance of RJCA model by adding more flexibility to deal with weak complementary relationships across audio and visual modalities. Extensive experiments are conducted on the challenging Affwild2 dataset to demonstrate the robustness of the proposed approach. By effectively handling the weak complementary relationships across the audio and visual modalities, the proposed model achieves a Concordance Correlation Coefficient (CCC) of 0.561 (0.623) and 0.620 (0.660) for valence and arousal respectively on the test set (validation set).

arxiv情報

著者 R. Gnana Praveen,Jahangir Alam,Eric Charton
発行日 2025-03-21 16:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space はコメントを受け付けていません