Building Age Estimation: A New Multi-Modal Benchmark Dataset and Community Challenge

要約

建物の建設年を推定することは、持続可能性にとって非常に重要です。
持続可能な建物は、エネルギー消費を最小限に抑え、気候変動と効果的に戦うための責任ある持続可能な都市計画と開発の重要な部分です。
人工知能(AI)を使用し、最近提案されたトランスモデルを使用することにより、マルチモーダルデータセットから建物の建設エポックを推定することができます。
このホワイトペーパーでは、新しいベンチマークマルチモーダルデータセット、つまり、Copernicus sentinelからのトップビューの非常に高解像度(VHR)画像、地球観測(EO)マルチスペクトルデータを含む、新しいベンチマークマルチモーダルデータセット、つまりCity Dataset(MYCD)を紹介します。
2つの衛星星座、およびヨーロッパの多くの異なる都市におけるストリートビュー画像は、調査中の建物と共局在し、建設エポックとラベル付けされています。
トレーニングから保留され、推論中にのみ表示されていた新しい/以前に目に見えない都市のEO一般化パフォーマンスを評価します。
この作業では、MYCDに基づいて組織したコミュニティベースのデータチャレンジを提示します。
ESA AI4EOチャレンジMapYourcityは、2024年に4か月間オープンしました。
ここでは、トップ4のパフォーマンスモデルと主な評価結果を紹介します。
推論中、3つの入力モダリティすべてと2つのトップビューモダリティのみ、つまりStreet-View画像なしの両方を使用してモデルのパフォーマンスを調べます。
評価結果は、モデルが効果的であり、以前に見えなかった都市でさえ、建物の年齢を推定するというこの困難な現実世界のタスクで良いパフォーマンスを達成できることを示しており、2つのトップビューのモダリティ(つまり、VHRとVHRとVHRと
Sentinel-2)推論中。

要約(オリジナル)

Estimating the construction year of buildings is of great importance for sustainability. Sustainable buildings minimize energy consumption and are a key part of responsible and sustainable urban planning and development to effectively combat climate change. By using Artificial Intelligence (AI) and recently proposed Transformer models, we are able to estimate the construction epoch of buildings from a multi-modal dataset. In this paper, we introduce a new benchmark multi-modal dataset, i.e. the Map your City Dataset (MyCD), containing top-view Very High Resolution (VHR) images, Earth Observation (EO) multi-spectral data from the Copernicus Sentinel-2 satellite constellation, and street-view images in many different cities in Europe, co-localized with respect to the building under study and labelled with the construction epoch. We assess EO generalization performance on new/ previously unseen cities that have been held-out from training and appear only during inference. In this work, we present the community-based data challenge we organized based on MyCD. The ESA AI4EO Challenge MapYourCity was opened in 2024 for 4 months. Here, we present the Top-4 performing models, and the main evaluation results. During inference, the performance of the models using both all three input modalities and only the two top-view modalities, i.e. without the street-view images, is examined. The evaluation results show that the models are effective and can achieve good performance on this difficult real-world task of estimating the age of buildings, even on previously unseen cities, as well as even using only the two top-view modalities (i.e. VHR and Sentinel-2) during inference.

arxiv情報

著者 Nikolaos Dionelis,Nicolas Longépé,Alessandra Feliciotti,Mattia Marconcini,Devis Peressutti,Nika Oman Kadunc,JaeWan Park,Hagai Raja Sinulingga,Steve Andreas Immanuel,Ba Tran,Caroline Arnold
発行日 2025-02-19 15:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Building Age Estimation: A New Multi-Modal Benchmark Dataset and Community Challenge はコメントを受け付けていません

DiffGuard: Text-Based Safety Checker for Diffusion Models

要約

拡散モデルの最近の進歩により、テキストからの画像の生成が可能になり、Dall-EやMidjourneyなどの強力なクローズドソースモデルが先導しています。
ただし、StabilityAの安定した拡散などのオープンソースの代替品は、同等の機能を提供します。
抱きしめる顔にホストされているこれらのオープンソースモデルには、明示的な画像の生成を防ぐために設計された倫理的フィルター保護が装備されています。
このペーパーでは、最初に彼らの制限を明らかにし、次に既存のソリューションを上回る新しいテキストベースの安全フィルターを提示します。
私たちの研究は、特に情報戦争の文脈において、AIに生成されたコンテンツの誤用に対処する重要な必要性によって推進されています。
DiffGuardはフィルタリングの有効性を高め、最高の既存のフィルターを14%以上超えるパフォーマンスを達成します。

要約(オリジナル)

Recent advances in Diffusion Models have enabled the generation of images from text, with powerful closed-source models like DALL-E and Midjourney leading the way. However, open-source alternatives, such as StabilityAI’s Stable Diffusion, offer comparable capabilities. These open-source models, hosted on Hugging Face, come equipped with ethical filter protections designed to prevent the generation of explicit images. This paper reveals first their limitations and then presents a novel text-based safety filter that outperforms existing solutions. Our research is driven by the critical need to address the misuse of AI-generated content, especially in the context of information warfare. DiffGuard enhances filtering efficacy, achieving a performance that surpasses the best existing filters by over 14%.

arxiv情報

著者 Massine El Khader,Elias Al Bouzidi,Abdellah Oumida,Mohammed Sbaihi,Eliott Binard,Jean-Philippe Poli,Wassila Ouerdane,Boussad Addad,Katarzyna Kapusta
発行日 2025-02-19 15:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DiffGuard: Text-Based Safety Checker for Diffusion Models はコメントを受け付けていません

Are generative models fair? A study of racial bias in dermatological image generation

要約

皮膚科のような医学の人種的偏見は、重要な倫理的および臨床的課題を提示しています。
これは、機械学習モデルのトレーニングデータセットに暗い肌のトーンが大幅に過小評価されているため、発生する可能性があります。
皮膚科のバイアスに対処する努力は、データセットの多様性の改善と識別モデルの格差の緩和に焦点を当てていますが、生成モデルに対する人種的バイアスの影響は未熟なままです。
変分自動エンコーダー(VAE)などの生成モデルは、ヘルスケアアプリケーションでますます使用されていますが、多様なスキントーン全体の公平性は現在よく理解されていません。
この研究では、人種的バイアスに関する臨床皮膚科の生成モデルの公平性を評価します。
この目的のために、私たちはまず知覚的損失でvaeを訓練して、異なる肌のトーンで高品質の肌の画像を生成および再構築します。
FitzPatrick17Kデータセットを利用して、人種的バイアスがこれらのモデルの表現とパフォーマンスにどのように影響するかを調べます。
私たちの調査結果は、VAEのパフォーマンスは、予想どおり、表現の影響を受けていること、つまり、肌のトーン表現の増加には、与えられた肌のトーンのパフォーマンスが向上することを示しています。
ただし、表現とは独立して、vaeがより軽い肌の色調に対してより良いパフォーマンスを発揮することも観察しています。
さらに、VAEによって生成された不確実性の推定値は、モデルの公平性を評価するのに効果がありません。
これらの結果は、より代表的な皮膚科学データセットの必要性を強調していますが、そのようなモデルのバイアスの原因をよりよく理解する必要があります。また、信頼できる医療技術の生成モデルの人種バイアスを検出および対処するための不確実性の定量化メカニズムの改善も強調しています。

要約(オリジナル)

Racial bias in medicine, such as in dermatology, presents significant ethical and clinical challenges. This is likely to happen because there is a significant underrepresentation of darker skin tones in training datasets for machine learning models. While efforts to address bias in dermatology have focused on improving dataset diversity and mitigating disparities in discriminative models, the impact of racial bias on generative models remains underexplored. Generative models, such as Variational Autoencoders (VAEs), are increasingly used in healthcare applications, yet their fairness across diverse skin tones is currently not well understood. In this study, we evaluate the fairness of generative models in clinical dermatology with respect to racial bias. For this purpose, we first train a VAE with a perceptual loss to generate and reconstruct high-quality skin images across different skin tones. We utilize the Fitzpatrick17k dataset to examine how racial bias influences the representation and performance of these models. Our findings indicate that VAE performance is, as expected, influenced by representation, i.e. increased skin tone representation comes with increased performance on the given skin tone. However, we also observe, even independently of representation, that the VAE performs better for lighter skin tones. Additionally, the uncertainty estimates produced by the VAE are ineffective in assessing the model’s fairness. These results highlight the need for more representative dermatological datasets, but also a need for better understanding the sources of bias in such model, as well as improved uncertainty quantification mechanisms to detect and address racial bias in generative models for trustworthy healthcare technologies.

arxiv情報

著者 Miguel López-Pérez,Søren Hauberg,Aasa Feragen
発行日 2025-02-19 15:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Are generative models fair? A study of racial bias in dermatological image generation はコメントを受け付けていません

Generative Video Semantic Communication via Multimodal Semantic Fusion with Large Model

要約

シャノンの理論に基づいた伝統的な構文通信の大幅な進歩にもかかわらず、これらの方法は、特に困難な伝送条件下で、6G没入型通信の要件を満たすのに苦労しています。
生成人工知能(GENAI)の開発により、高レベルのセマンティック情報を使用して動画を再構築することにおいて進展がありました。
この論文では、高品質のビデオ再建を実現するために意味情報を抽出および送信するスケーラブルな生成ビデオセマンティックコミュニケーションフレームワークを提案します。
具体的には、送信機では、説明およびその他の条件信号(例:最初のフレーム、スケッチなど)がソースビデオから抽出され、それぞれテキストと構造セマンティクスとして機能します。
受信機では、拡散ベースのGenai大規模モデルを利用して、ビデオを再構築するための複数のモダリティのセマンティクスを融合します。
シミュレーション結果は、超低チャネル帯域幅比(CBR)で、私たちのスキームがセマンティック情報を効果的にキャプチャして、異なる信号対雑音比の下で人間の知覚に合ったビデオを再構築することを効果的にキャプチャします。
特に、提案された「最初のフレーム+DESC」。
スキームは、SNR> 0 dBでCBR = 0.0057で0.92を超えるクリップスコアを一貫して達成します。
これは、低SNR条件下でも堅牢なパフォーマンスを示しています。

要約(オリジナル)

Despite significant advancements in traditional syntactic communications based on Shannon’s theory, these methods struggle to meet the requirements of 6G immersive communications, especially under challenging transmission conditions. With the development of generative artificial intelligence (GenAI), progress has been made in reconstructing videos using high-level semantic information. In this paper, we propose a scalable generative video semantic communication framework that extracts and transmits semantic information to achieve high-quality video reconstruction. Specifically, at the transmitter, description and other condition signals (e.g., first frame, sketches, etc.) are extracted from the source video, functioning as text and structural semantics, respectively. At the receiver, the diffusion-based GenAI large models are utilized to fuse the semantics of the multiple modalities for reconstructing the video. Simulation results demonstrate that, at an ultra-low channel bandwidth ratio (CBR), our scheme effectively captures semantic information to reconstruct videos aligned with human perception under different signal-to-noise ratios. Notably, the proposed “First Frame+Desc.’ scheme consistently achieves CLIP score exceeding 0.92 at CBR = 0.0057 for SNR > 0 dB. This demonstrates its robust performance even under low SNR conditions.

arxiv情報

著者 Hang Yin,Li Qiao,Yu Ma,Shuo Sun,Kan Li,Zhen Gao,Dusit Niyato
発行日 2025-02-19 15:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, eess.IV, eess.SP, math.IT | Generative Video Semantic Communication via Multimodal Semantic Fusion with Large Model はコメントを受け付けていません

Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization

要約

データセット蒸留は、フルスケールのオリジナルに匹敵するパフォーマンスを備えた小さなデータセットを最適化することにより、メモリと計算コストを削減するための効率的な方法を提供します。
ただし、大規模なデータセットと複雑なディープネットワーク(例:ResNet-101を使用したImagenet-1K)の場合、広範な最適化スペースはパフォーマンスを制限し、その実用性を低下させます。
最近のアプローチでは、事前に訓練された拡散モデルを採用して、有益な画像を直接生成し、ピクセルレベルの最適化を回避し、顕著な結果を達成しています。
ただし、これらの方法は、多くの場合、事前に訓練されたモデルとターゲットデータセット間の分布シフトにより、さまざまな設定全体で複数の蒸留ステップが必要であるため、課題に直面しています。
これらの問題に対処するために、既存の拡散ベースの蒸留方法に直交する新しいフレームワークを提案し、生成ではなく選択のために拡散モデルを活用します。
私たちの方法は、入力画像とテキストプロンプトに基づいて拡散モデルによって生成されるノイズを予測することから始まります(ラベルテキストの有無にかかわらず)、各ペアの対応する損失を計算します。
損失の違いにより、元の画像の特徴的な領域を識別します。
さらに、多様性の制約を維持するために、選択したパッチでクラス内クラスタリングとランキングを実行します。
この合理化されたフレームワークは、単一ステップの蒸留プロセスを可能にし、広範な実験により、私たちのアプローチがさまざまなメトリックにわたって最新の方法を上回ることが示されています。

要約(オリジナル)

Dataset distillation offers an efficient way to reduce memory and computational costs by optimizing a smaller dataset with performance comparable to the full-scale original. However, for large datasets and complex deep networks (e.g., ImageNet-1K with ResNet-101), the extensive optimization space limits performance, reducing its practicality. Recent approaches employ pre-trained diffusion models to generate informative images directly, avoiding pixel-level optimization and achieving notable results. However, these methods often face challenges due to distribution shifts between pre-trained models and target datasets, along with the need for multiple distillation steps across varying settings. To address these issues, we propose a novel framework orthogonal to existing diffusion-based distillation methods, leveraging diffusion models for selection rather than generation. Our method starts by predicting noise generated by the diffusion model based on input images and text prompts (with or without label text), then calculates the corresponding loss for each pair. With the loss differences, we identify distinctive regions of the original images. Additionally, we perform intra-class clustering and ranking on selected patches to maintain diversity constraints. This streamlined framework enables a single-step distillation process, and extensive experiments demonstrate that our approach outperforms state-of-the-art methods across various metrics.

arxiv情報

著者 Xinhao Zhong,Shuoyang Sun,Xulin Gu,Zhaoyang Xu,Yaowei Wang,Jianlong Wu,Bin Chen
発行日 2025-02-19 16:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization はコメントを受け付けていません

PoGDiff: Product-of-Gaussians Diffusion Models for Imbalanced Text-to-Image Generation

要約

拡散モデルは、近年大きな進歩を遂げています。
ただし、不均衡なデータセットで訓練または微調整された場合、パフォーマンスはしばしば悪化します。
この劣化は、主に画像テキストペアにおける多数派と少数派データの不均衡な表現によるものです。
この論文では、この課題に対処するために、Pogdiffと呼ばれる一般的な微調整アプローチを提案します。
Pogdiffは、予測された分布と根真実の分布との間のKLの発散を直接最小化するのではなく、グラウンドトゥルース分布をガウス(POG)の産物に置き換えます。
隣接するテキスト埋め込み。
実際のデータセットでの実験は、我々の方法が拡散モデルの不均衡の問題に効果的に対処し、生成の精度と品質の両方を改善することを示しています。

要約(オリジナル)

Diffusion models have made significant advancements in recent years. However, their performance often deteriorates when trained or fine-tuned on imbalanced datasets. This degradation is largely due to the disproportionate representation of majority and minority data in image-text pairs. In this paper, we propose a general fine-tuning approach, dubbed PoGDiff, to address this challenge. Rather than directly minimizing the KL divergence between the predicted and ground-truth distributions, PoGDiff replaces the ground-truth distribution with a Product of Gaussians (PoG), which is constructed by combining the original ground-truth targets with the predicted distribution conditioned on a neighboring text embedding. Experiments on real-world datasets demonstrate that our method effectively addresses the imbalance problem in diffusion models, improving both generation accuracy and quality.

arxiv情報

著者 Ziyan Wang,Sizhe Wei,Xiaoming Huo,Hao Wang
発行日 2025-02-19 16:18:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | PoGDiff: Product-of-Gaussians Diffusion Models for Imbalanced Text-to-Image Generation はコメントを受け付けていません

MagicGeo: Training-Free Text-Guided Geometric Diagram Generation

要約

幾何学的図は、数学的および科学的概念を伝える上で重要ですが、従来の図の生成方法は、多くの場合、マニュアルでリソース集約的です。
テキストからイメージの生成により、フォトリアリスティックな画像が進んでいますが、正確な幾何学的図を作成することは、正確な空間的関係の必要性と幾何学固有のデータセットの希少性のために依然として課題です。
このペーパーでは、テキストの説明から幾何学的図を生成するためのトレーニングフリーのフレームワークであるMagicGeoを紹介します。
MagicGeoは、図の生成プロセスを座標最適化問題として定式化し、正式な言語ソルバーを介した幾何学的正確性を確保し、座標を認識した生成を採用します。
フレームワークは、大規模な言語モデルの強力な言語翻訳能力を活用し、正式な数学的解決により幾何学的な正確性が保証されます。
さらに、220の幾何学的図の説明のベンチマークデータセットであるMagicGeobenchを紹介し、MagicGeoが定性的評価と定量的評価の両方で現在の方法を上回ることを実証します。
この作業は、自動化された図生成のためのスケーラブルで正確なソリューションを提供し、教育および学術アプリケーションに大きな意味を持ちます。

要約(オリジナル)

Geometric diagrams are critical in conveying mathematical and scientific concepts, yet traditional diagram generation methods are often manual and resource-intensive. While text-to-image generation has made strides in photorealistic imagery, creating accurate geometric diagrams remains a challenge due to the need for precise spatial relationships and the scarcity of geometry-specific datasets. This paper presents MagicGeo, a training-free framework for generating geometric diagrams from textual descriptions. MagicGeo formulates the diagram generation process as a coordinate optimization problem, ensuring geometric correctness through a formal language solver, and then employs coordinate-aware generation. The framework leverages the strong language translation capability of large language models, while formal mathematical solving ensures geometric correctness. We further introduce MagicGeoBench, a benchmark dataset of 220 geometric diagram descriptions, and demonstrate that MagicGeo outperforms current methods in both qualitative and quantitative evaluations. This work provides a scalable, accurate solution for automated diagram generation, with significant implications for educational and academic applications.

arxiv情報

著者 Junxiao Wang,Ting Zhang,Heng Yu,Jingdong Wang,Hua Huang
発行日 2025-02-19 16:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MagicGeo: Training-Free Text-Guided Geometric Diagram Generation はコメントを受け付けていません

Regularization by Neural Style Transfer for MRI Field-Transfer Reconstruction with Limited Data

要約

MRI再構築における最近の進歩は、深い学習ベースのモデルを通じて顕著な成功を示しています。
ただし、ほとんどの既存の方法は、大規模でタスク固有のデータセットに大きく依存しているため、データ制限設定の再構築は重要でありながら採用されていない課題になります。
除去(赤)による正則化(赤)は、除去者を再建の前提条件として活用している間、神経スタイルの転送(NST)エンジンを型磁場転移の再構築に統合する新しいフレームワークであるニューラルスタイル転送(RNST)による正則化を提案します。
RNSTは、ペアのトレーニングデータを必要とせずに低フィールド入力から高フィールド品質の画像を生成し、限られたデータの設定に対処するためにスタイルのプライアーを活用します。
私たちの実験結果は、多様な解剖学的平面(軸、冠状、矢状)およびノイズレベルで高品質の画像を再構築するRNSTの能力を示しており、低いフィールドの参照と比較して優れた明瞭さ、コントラスト、および構造的忠実度を達成します。
重要なことに、RNSTは、スタイルとコンテンツの画像に正確なアラインメントがなく、正確な参照マッチが利用できない臨床環境での適用性を拡大しても、堅牢性を維持します。
NSTと除去の強度を組み合わせることにより、RNSTはMRIフィールド移動再構成のためのスケーラブルでデータ効率の高いソリューションを提供し、リソース制限設定の重要な可能性を示しています。

要約(オリジナル)

Recent advances in MRI reconstruction have demonstrated remarkable success through deep learning-based models. However, most existing methods rely heavily on large-scale, task-specific datasets, making reconstruction in data-limited settings a critical yet underexplored challenge. While regularization by denoising (RED) leverages denoisers as priors for reconstruction, we propose Regularization by Neural Style Transfer (RNST), a novel framework that integrates a neural style transfer (NST) engine with a denoiser to enable magnetic field-transfer reconstruction. RNST generates high-field-quality images from low-field inputs without requiring paired training data, leveraging style priors to address limited-data settings. Our experiment results demonstrate RNST’s ability to reconstruct high-quality images across diverse anatomical planes (axial, coronal, sagittal) and noise levels, achieving superior clarity, contrast, and structural fidelity compared to lower-field references. Crucially, RNST maintains robustness even when style and content images lack exact alignment, broadening its applicability in clinical environments where precise reference matches are unavailable. By combining the strengths of NST and denoising, RNST offers a scalable, data-efficient solution for MRI field-transfer reconstruction, demonstrating significant potential for resource-limited settings.

arxiv情報

著者 Guoyao Shen,Yancheng Zhu,Mengyu Li,Ryan McNaughton,Hernan Jara,Sean B. Andersson,Chad W. Farris,Stephan Anderson,Xin Zhang
発行日 2025-02-19 16:24:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, physics.med-ph | Regularization by Neural Style Transfer for MRI Field-Transfer Reconstruction with Limited Data はコメントを受け付けていません

MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection

要約

ビデオカモフラージュオブジェクト検出(VCOD)は、ビデオのバックグラウンド内でシームレスに隠されたオブジェクトを識別することを目的とする挑戦的なタスクです。
ビデオの動的特性により、モーションキューまたはさまざまな視点を介したカモフラージュオブジェクトの検出が可能になります。
以前のVCODデータセットには主に動物のオブジェクトが含まれており、研究の範囲を野生生物シナリオに制限しています。
ただし、VCODの応用は野生生物を超えて拡張されており、セキュリティ、芸術、および医療分野に大きな影響を与えています。
この問題に対処すると、新しい大規模なマルチドメインVCODデータセットMSVCODを作成します。
高品質の注釈を達成するために、注釈の精度を維持しながらコストを削減する半自動反復注釈パイプラインを設計します。
私たちのMSVCODは、これまでで最大のVCODデータセットであり、人間、動物、医療、車両のオブジェクトを含む複数のオブジェクトカテゴリを初めて導入し、さまざまな環境での背景の多様性を拡大します。
この拡張されたスコープは、カモフラージュオブジェクト検出におけるVCODタスクの実際的な適用性を高めます。
このデータセットに加えて、追加のモーション機能融合モジュールなしで機能抽出と情報融合の両方を実行するワンスチームビデオカモフラージュオブジェクト検出モデルを紹介します。
私たちのフレームワークは、既存のVCOD動物データセットと提案されたMSVCODで最先端の結果を達成します。
データセットとコードは公開されます。

要約(オリジナル)

Video Camouflaged Object Detection (VCOD) is a challenging task which aims to identify objects that seamlessly concealed within the background in videos. The dynamic properties of video enable detection of camouflaged objects through motion cues or varied perspectives. Previous VCOD datasets primarily contain animal objects, limiting the scope of research to wildlife scenarios. However, the applications of VCOD extend beyond wildlife and have significant implications in security, art, and medical fields. Addressing this problem, we construct a new large-scale multi-domain VCOD dataset MSVCOD. To achieve high-quality annotations, we design a semi-automatic iterative annotation pipeline that reduces costs while maintaining annotation accuracy. Our MSVCOD is the largest VCOD dataset to date, introducing multiple object categories including human, animal, medical, and vehicle objects for the first time, while also expanding background diversity across various environments. This expanded scope increases the practical applicability of the VCOD task in camouflaged object detection. Alongside this dataset, we introduce a one-steam video camouflage object detection model that performs both feature extraction and information fusion without additional motion feature fusion modules. Our framework achieves state-of-the-art results on the existing VCOD animal dataset and the proposed MSVCOD. The dataset and code will be made publicly available.

arxiv情報

著者 Shuyong Gao,Yu’ang Feng,Qishan Wang,Lingyi Hong,Xinyu Zhou,Liu Fei,Yan Wang,Wenqiang Zhang
発行日 2025-02-19 16:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection はコメントを受け付けていません

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

要約

感情を理解することは、人間のコミュニケーションの基本的な側面です。
オーディオとビデオの信号を統合することで、音声や表情などの単一のデータソースに依存する従来の方法と比較して、感情状態をより包括的に理解することができます。
その可能性にもかかわらず、マルチモーダル感情認識は、特に同期、特徴抽出、多様なデータソースの融合において、重大な課題に直面しています。
これらの問題に対処するために、このホワイトペーパーでは、Cross Atterness(AVT-CA)を備えたAudio-Video Transformer Fusionという名前の新しい変圧器ベースのモデルを紹介します。
AVT-CAモデルは、トランスフュージョンアプローチを採用して、オーディオ入力とビデオ入力の両方から相互リンクされた機能を効果的にキャプチャして同期し、同期の問題を解決します。
さらに、AVT-CA内の交差注意メカニズムは、重要な特徴を選択的に抽出し、強調しながら、無関係な機能を両方のモダリティから破棄し、特徴の抽出と融合の課題に対処します。
CMU-Mosei、Ravdess、およびCREMA-Dデータセットで実施された広範な実験分析は、提案されたモデルの有効性を示しています。
結果は、実用的なアプリケーションのための正確で信頼性の高いマルチモーダル感情認識システムの開発におけるAVT-CAの重要性を強調しています。

要約(オリジナル)

Understanding emotions is a fundamental aspect of human communication. Integrating audio and video signals offers a more comprehensive understanding of emotional states compared to traditional methods that rely on a single data source, such as speech or facial expressions. Despite its potential, multimodal emotion recognition faces significant challenges, particularly in synchronization, feature extraction, and fusion of diverse data sources. To address these issues, this paper introduces a novel transformer-based model named Audio-Video Transformer Fusion with Cross Attention (AVT-CA). The AVT-CA model employs a transformer fusion approach to effectively capture and synchronize interlinked features from both audio and video inputs, thereby resolving synchronization problems. Additionally, the Cross Attention mechanism within AVT-CA selectively extracts and emphasizes critical features while discarding irrelevant ones from both modalities, addressing feature extraction and fusion challenges. Extensive experimental analysis conducted on the CMU-MOSEI, RAVDESS and CREMA-D datasets demonstrates the efficacy of the proposed model. The results underscore the importance of AVT-CA in developing precise and reliable multimodal emotion recognition systems for practical applications.

arxiv情報

著者 Joe Dhanith P R,Shravan Venkatraman,Vigya Sharma,Santhosh Malarvannan,Modigari Narendra
発行日 2025-02-19 16:29:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention はコメントを受け付けていません