Towards Robust Multimodal Representation: A Unified Approach with Adaptive Experts and Alignment

要約

ヘルスケアは、診断と治療を改善するために、医療画像、遺伝情報、臨床記録など、複数のタイプのデータに依存しています。
ただし、データの欠落は、プライバシーの制限、コスト、および技術的な問題のために一般的な課題であり、多くの既存のマルチモーダルモデルを信頼できないものにします。
これに対処するために、高精度を維持しながら不完全なマルチモーダルデータを処理する深い学習フレームワークである、専門家、対称的整列、および再構築(Mosare)の混合物と呼ばれる新しいマルチモデルモデルを提案します。
Mosareは、特徴の表現と意思決定を改善するために、専門家の選択、モーダルの注意、対照的な学習を統合します。
私たちの結果は、データが完了した状況で、Mosareが既存のモデルよりも優れていることを示しています。
さらに、一部のデータが欠落している場合でも、信頼できる予測を提供します。
これにより、リソース制限環境を含む実際のヘルスケアの設定で特に役立ちます。
私たちのコードは、https://github.com/nazaninmn/mosareで公開されています。

要約(オリジナル)

Healthcare relies on multiple types of data, such as medical images, genetic information, and clinical records, to improve diagnosis and treatment. However, missing data is a common challenge due to privacy restrictions, cost, and technical issues, making many existing multi-modal models unreliable. To address this, we propose a new multi-model model called Mixture of Experts, Symmetric Aligning, and Reconstruction (MoSARe), a deep learning framework that handles incomplete multimodal data while maintaining high accuracy. MoSARe integrates expert selection, cross-modal attention, and contrastive learning to improve feature representation and decision-making. Our results show that MoSARe outperforms existing models in situations when the data is complete. Furthermore, it provides reliable predictions even when some data are missing. This makes it especially useful in real-world healthcare settings, including resource-limited environments. Our code is publicly available at https://github.com/NazaninMn/MoSARe.

arxiv情報

著者 Nazanin Moradinasab,Saurav Sengupta,Jiebei Liu,Sana Syed,Donald E. Brown
発行日 2025-03-12 16:03:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Towards Robust Multimodal Representation: A Unified Approach with Adaptive Experts and Alignment はコメントを受け付けていません

MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions

要約

大規模なビジョン言語モデル(VLM)は、労働集約型のマニュアル指導データセットまたは計算上の高価な自己監視方法に依存しているため、堅牢で転送可能な推論能力を達成する上で課題に直面しています。
これらの問題に対処するために、3つの段階で構成される合成自己挑戦の質問を通じてVLMを強化するフレームワークであるMindGymを紹介します。
(2)より深い推論を要求するマルチステップの問題を作成するために、ブリッジング、視覚的整形調整などの多様な原則を介して種子の質問を組み合わせて、マルチホップの質問統合に挑戦します。
(3)思考によって誘発されたカリキュラムの微調整、足場の推論からスタンドアロンの推論までモデルを徐々に訓練する構造化されたパイプライン。
モデルの自己合成能力を活用することにより、MindGYMは高いデータ効率(たとえば、わずか400サンプルでMathVision-Miniで +16%の利益を得る)、計算効率(トレーニングと推論コストの両方を削減)、およびタスク全体の堅牢な一般化を達成します。
7つのベンチマークでの広範な評価は、強力なベースラインよりも優れたパフォーマンスを示しており、GPTベースのスコアリングを介して検証された推論の深さと幅の顕著な改善(+15.77%の勝率)を示しています。
MindGymは、人間の介入と資源の要求を最小限に抑えながら、VLM機能を改良するための自己挑戦の実行可能性を強調しています。
コードとデータは、マルチモーダル推論の研究を進めるためにリリースされます。

要約(オリジナル)

Large vision-language models (VLMs) face challenges in achieving robust, transferable reasoning abilities due to reliance on labor-intensive manual instruction datasets or computationally expensive self-supervised methods. To address these issues, we introduce MindGYM, a framework that enhances VLMs through synthetic self-challenging questions, consisting of three stages: (1) Seed Single-Hop Question Synthesis, generating cognitive questions across textual (e.g., logical deduction) and multimodal contexts (e.g., diagram-based queries) spanning eight semantic areas like ethical analysis; (2) Challenging Multi-Hop Question Synthesis, combining seed questions via diverse principles like bridging, visual-textual alignment, to create multi-step problems demanding deeper reasoning; and (3) Thinking-Induced Curriculum Fine-Tuning, a structured pipeline that progressively trains the model from scaffolded reasoning to standalone inference. By leveraging the model’s self-synthesis capability, MindGYM achieves high data efficiency (e.g., +16% gains on MathVision-Mini with only 400 samples), computational efficiency (reducing both training and inference costs), and robust generalization across tasks. Extensive evaluations on seven benchmarks demonstrate superior performance over strong baselines, with notable improvements (+15.77% win rates) in reasoning depth and breadth validated via GPT-based scoring. MindGYM underscores the viability of self-challenging for refining VLM capabilities while minimizing human intervention and resource demands. Code and data are released to advance multimodal reasoning research.

arxiv情報

著者 Zhe Xu,Daoyuan Chen,Zhenqing Ling,Yaliang Li,Ying Shen
発行日 2025-03-12 16:03:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions はコメントを受け付けていません

Double-Stage Feature-Level Clustering-Based Mixture of Experts Framework

要約

Experts(MOE)の混合モデルは、深い学習(DL)に成功しました。
ただし、画像分類における密なモデルよりも複雑なアーキテクチャと利点は不明のままです。
以前の研究では、MOEのパフォーマンスは、多くの場合、入力空間の騒音や外れ値の影響を受けてきました。
一部のアプローチには、MOEモデルのトレーニング用の入力クラスタリングが組み込まれていますが、ほとんどのクラスタリングアルゴリズムにはラベル付きデータへのアクセスがなく、有効性が制限されています。
このペーパーでは、入力特徴抽出、機能レベルのクラスタリング、計算効率的な擬似ラベル化戦略で構成される、専門家(DFCP-MOE)フレームワークのダブルステージレベルのクラスタリングと擬似ラベルベースの混合物を紹介します。
このアプローチは、ノイズと外れ値の影響を減らし、ラベル付きデータの小さなサブセットを活用して、無効な入力の大部分をラベル付けします。
よく描かれたクラスター化された入力でMOEモデルをトレーニングすることにより、専門家の専門化を改善する条件付きエンドツーエンドの共同トレーニング方法を提案します。
従来のMOEや密集したモデルとは異なり、DFCP-MOEフレームワークは、入力スペースの多様性を効果的にキャプチャし、競争力のある推論結果につながります。
マルチクラス分類タスクの3つのベンチマークデータセットでアプローチを検証します。

要約(オリジナル)

The Mixture-of-Experts (MoE) model has succeeded in deep learning (DL). However, its complex architecture and advantages over dense models in image classification remain unclear. In previous studies, MoE performance has often been affected by noise and outliers in the input space. Some approaches incorporate input clustering for training MoE models, but most clustering algorithms lack access to labeled data, limiting their effectiveness. This paper introduces the Double-stage Feature-level Clustering and Pseudo-labeling-based Mixture of Experts (DFCP-MoE) framework, which consists of input feature extraction, feature-level clustering, and a computationally efficient pseudo-labeling strategy. This approach reduces the impact of noise and outliers while leveraging a small subset of labeled data to label a large portion of unlabeled inputs. We propose a conditional end-to-end joint training method that improves expert specialization by training the MoE model on well-labeled, clustered inputs. Unlike traditional MoE and dense models, the DFCP-MoE framework effectively captures input space diversity, leading to competitive inference results. We validate our approach on three benchmark datasets for multi-class classification tasks.

arxiv情報

著者 Bakary Badjie,José Cecílio,António Casimiro
発行日 2025-03-12 16:13:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.LO | Double-Stage Feature-Level Clustering-Based Mixture of Experts Framework はコメントを受け付けていません

ViM-VQ: Efficient Post-Training Vector Quantization for Visual Mamba

要約

Visual Mamba Networks(VIMS)は、選択的宇宙状態モデル(MAMBA)をさまざまなビジョンタスクに拡張し、重要な可能性を示しています。
一方、ベクトル量子化(VQ)は、ネットワークの重みをコードブックと割り当てに分解し、メモリの使用量と計算レイテンシを大幅に削減して、エッジデバイスでのVIMの展開を有効にします。
既存のVQメソッドは、畳み込みニューラルネットワークおよびトランスベースのネットワークで非常に低ビットの量子化(3ビット、2ビット、1ビット、1ビットなど)を達成しましたが、これらの方法をVIMに直接適用すると、不十分な精度が得られます。
いくつかの重要な課題を特定します。1)VIMのMambaベースのブロックの重みには、量子化エラーが大幅に増幅される多数の外れ値が含まれています。
2)VIMSに適用されると、最新のVQメソッドは、最適なコードワードの検索で、過剰なメモリ消費、長いキャリブレーション手順、および最適ではないパフォーマンスに悩まされます。
このホワイトペーパーでは、VIM-VIM-VQを提案します。VIM-VQは、VIMに合わせた効率的なトレーニング後のベクター量子化方法です。
VIM-VQは、2つの革新的なコンポーネントで構成されています。1)凸の組み合わせと凸面の両方を効率的に更新して最適なコードワードを検索する高速凸組み合わせ最適化アルゴリズム、および2)最適なコードワードを漸進的に確認する増分ベクター量子化戦略を検索します。
実験結果は、VIM-VQがさまざまな視覚タスクにわたって低ビットの量子化で最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Visual Mamba networks (ViMs) extend the selective space state model (Mamba) to various vision tasks and demonstrate significant potential. Vector quantization (VQ), on the other hand, decomposes network weights into codebooks and assignments, significantly reducing memory usage and computational latency to enable ViMs deployment on edge devices. Although existing VQ methods have achieved extremely low-bit quantization (e.g., 3-bit, 2-bit, and 1-bit) in convolutional neural networks and Transformer-based networks, directly applying these methods to ViMs results in unsatisfactory accuracy. We identify several key challenges: 1) The weights of Mamba-based blocks in ViMs contain numerous outliers, significantly amplifying quantization errors. 2) When applied to ViMs, the latest VQ methods suffer from excessive memory consumption, lengthy calibration procedures, and suboptimal performance in the search for optimal codewords. In this paper, we propose ViM-VQ, an efficient post-training vector quantization method tailored for ViMs. ViM-VQ consists of two innovative components: 1) a fast convex combination optimization algorithm that efficiently updates both the convex combinations and the convex hulls to search for optimal codewords, and 2) an incremental vector quantization strategy that incrementally confirms optimal codewords to mitigate truncation errors. Experimental results demonstrate that ViM-VQ achieves state-of-the-art performance in low-bit quantization across various visual tasks.

arxiv情報

著者 Juncan Deng,Shuaiting Li,Zeyu Wang,Kedong Xu,Hong Gu,Kejie Huang
発行日 2025-03-12 16:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ViM-VQ: Efficient Post-Training Vector Quantization for Visual Mamba はコメントを受け付けていません

CM-Diff: A Single Generative Network for Bidirectional Cross-Modality Translation Diffusion Model Between Infrared and Visible Images

要約

画像翻訳方法は、赤外線および目に見えるモダリティの情報欠陥を緩和するための重要なアプローチを表し、モダリティ固有のデータセットの強化も促進します。
ただし、赤外線および可視画像翻訳の既存の方法は、一方向モダリティ翻訳を実現するか、双方向モダリティ翻訳のサイクルの一貫性に依存しているため、最適ではないパフォーマンスが発生する可能性があります。
この作業では、赤外線および可視モダリティの両方でデータ分布を同時にモデル化するためのクロスモダリティ翻訳拡散モデル(CMディフ)を提示します。
トレーニング中のガイダンスのために翻訳方向ラベルをクロスモダリティフィーチャコントロールと組み合わせることにより、この課題に対処します。
具体的には、2つのモダリティ間のマッピング関係の確立を、データ分布を学習し、モダリティの違いを理解するプロセスとして、新しい双方向拡散トレーニング(BDT)戦略を通じて達成されます。
さらに、生成された画像がターゲットモダリティのデータ分布に密接に準拠するようにするために、統計的制約推論(SCI)戦略を提案します。
実験結果は、最先端の方法よりもCMディフの優位性を示しており、デュアルモダリティデータセットを生成する可能性を強調しています。

要約(オリジナル)

The image translation method represents a crucial approach for mitigating information deficiencies in the infrared and visible modalities, while also facilitating the enhancement of modality-specific datasets. However, existing methods for infrared and visible image translation either achieve unidirectional modality translation or rely on cycle consistency for bidirectional modality translation, which may result in suboptimal performance. In this work, we present the cross-modality translation diffusion model (CM-Diff) for simultaneously modeling data distributions in both the infrared and visible modalities. We address this challenge by combining translation direction labels for guidance during training with cross-modality feature control. Specifically, we view the establishment of the mapping relationship between the two modalities as the process of learning data distributions and understanding modality differences, achieved through a novel Bidirectional Diffusion Training (BDT) strategy. Additionally, we propose a Statistical Constraint Inference (SCI) strategy to ensure the generated image closely adheres to the data distribution of the target modality. Experimental results demonstrate the superiority of our CM-Diff over state-of-the-art methods, highlighting its potential for generating dual-modality datasets.

arxiv情報

著者 Bin Hu,Chenqiang Gao,Shurui Liu,Junjie Guo,Fang Chen,Fangcen Liu
発行日 2025-03-12 16:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CM-Diff: A Single Generative Network for Bidirectional Cross-Modality Translation Diffusion Model Between Infrared and Visible Images はコメントを受け付けていません

MaskFlow: Discrete Flows For Flexible and Efficient Long Video Generation

要約

空間的および時間的ダイナミクスとハードウェアの制限の複雑な相互作用により、長く高品質のビデオを生成することは依然として課題です。
この作業では、個別の表現とフローマッチングを組み合わせて、高品質の長いビデオの効率的な生成を可能にする統一されたビデオ生成フレームワークであるMaskFlowを紹介します。
トレーニング中にフレームレベルのマスキング戦略を活用することにより、以前に生成されたアンマスクフレームのMaskFlow条件をレバレッジして、トレーニングシーケンスの10倍を超える長さのビデオを生成します。
MaskFlowは、高速マスク生成モデル(MGM)スタイルサンプリングを使用できるようにすることで非常に効率的に行い、完全に自己回復的な生成モードの両方で展開できます。
FaceForensics(FFS)およびDeepMind Lab(DMLAB)データセットでのメソッドの品質を検証し、最先端のアプローチと競争力のあるFrechet Video Distance(FVD)をレポートします。
また、メソッドのサンプリング効率に関する詳細な分析を提供し、MaskFlowをTimestep依存モデルとTimestep独立モデルの両方にトレーニングなしの方法で適用できることを実証します。

要約(オリジナル)

Generating long, high-quality videos remains a challenge due to the complex interplay of spatial and temporal dynamics and hardware limitations. In this work, we introduce MaskFlow, a unified video generation framework that combines discrete representations with flow-matching to enable efficient generation of high-quality long videos. By leveraging a frame-level masking strategy during training, MaskFlow conditions on previously generated unmasked frames to generate videos with lengths ten times beyond that of the training sequences. MaskFlow does so very efficiently by enabling the use of fast Masked Generative Model (MGM)-style sampling and can be deployed in both fully autoregressive as well as full-sequence generation modes. We validate the quality of our method on the FaceForensics (FFS) and Deepmind Lab (DMLab) datasets and report Frechet Video Distance (FVD) competitive with state-of-the-art approaches. We also provide a detailed analysis on the sampling efficiency of our method and demonstrate that MaskFlow can be applied to both timestep-dependent and timestep-independent models in a training-free manner.

arxiv情報

著者 Michael Fuest,Vincent Tao Hu,Björn Ommer
発行日 2025-03-12 16:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MaskFlow: Discrete Flows For Flexible and Efficient Long Video Generation はコメントを受け付けていません

Patch-Wise Hypergraph Contrastive Learning with Dual Normal Distribution Weighting for Multi-Domain Stain Transfer

要約

仮想染色転送は、コンピューター支援技術を活用して、組織サンプルの組織化学染色パターンを他の染色タイプに変換します。
ただし、既存の方法は、サイクルの一貫性の仮定の制限により、詳細な病理情報を失うことがよくあります。
この課題に対処するために、ハイパーグラフベースのパッチごとの対照学習方法であるSTNHCLを提案します。
STNHCLは、ハイパーグラフモデリングを通じてパッチ間の高次関係をキャプチャし、入力画像と出力画像間の一貫した高次トポロジを確保します。
さらに、組織と背景のガウス分布に基づいて異なる重みを適用して、従来の重み付け方法を強化するために、判別器ヒートマップを活用する新しい負のサンプル重み付け戦略を導入します。
実験は、STNHCLがステイントランスファータスクの2つの主要なカテゴリで最先端のパフォーマンスを達成することを示しています。
さらに、私たちのモデルは、ダウンストリームタスクでも優れたパフォーマンスを発揮します。
コードが利用可能になります。

要約(オリジナル)

Virtual stain transfer leverages computer-assisted technology to transform the histochemical staining patterns of tissue samples into other staining types. However, existing methods often lose detailed pathological information due to the limitations of the cycle consistency assumption. To address this challenge, we propose STNHCL, a hypergraph-based patch-wise contrastive learning method. STNHCL captures higher-order relationships among patches through hypergraph modeling, ensuring consistent higher-order topology between input and output images. Additionally, we introduce a novel negative sample weighting strategy that leverages discriminator heatmaps to apply different weights based on the Gaussian distribution for tissue and background, thereby enhancing traditional weighting methods. Experiments demonstrate that STNHCL achieves state-of-the-art performance in the two main categories of stain transfer tasks. Furthermore, our model also performs excellently in downstream tasks. Code will be made available.

arxiv情報

著者 Haiyan Wei,Hangrui Xu,Bingxu Zhu,Yulian Geng,Aolei Liu,Wenfei Yin,Jian Liu
発行日 2025-03-12 16:39:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Patch-Wise Hypergraph Contrastive Learning with Dual Normal Distribution Weighting for Multi-Domain Stain Transfer はコメントを受け付けていません

CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games

要約

ビジョン言語アクションモデル(VLA)の最近の進歩により、具体化された知性の能力が拡大しました。
ただし、複雑な3D環境でのリアルタイムの意思決定には大きな課題が残っており、動的な条件下での第2レベルの応答、高解像度の認識、戦術的推論が必要です。
フィールドを進めるために、3Dアクションロールプレイングゲーム(ARPG)の戦闘タスクに最適化された効率的なVLAモデルであるCombatVLAを導入します。
具体的には、当社のcombatVLAは、アクショントラッカーによって収集されたビデオアクションペアでトレーニングされた3Bモデルであり、データは思考アクション(AOT)シーケンスとしてフォーマットされています。
その後、CombatVLAはアクション実行フレームワークにシームレスに統合され、切り捨てられたAOT戦略を通じて効率的な推論が可能になります。
実験結果は、CombatVLAが戦闘理解ベンチマーク上のすべての既存のモデルを上回るだけでなく、ゲーム戦闘で50倍の加速を達成することを示しています。
さらに、人間のプレイヤーよりもタスクの成功率が高くなっています。
アクショントラッカー、データセット、ベンチマーク、モデルの重み、トレーニングコード、https://combatvla.github.io/のフレームワークの実装など、すべてのリソースをオープンソーシングします。

要約(オリジナル)

Recent advances in Vision-Language-Action models (VLAs) have expanded the capabilities of embodied intelligence. However, significant challenges remain in real-time decision-making in complex 3D environments, which demand second-level responses, high-resolution perception, and tactical reasoning under dynamic conditions. To advance the field, we introduce CombatVLA, an efficient VLA model optimized for combat tasks in 3D action role-playing games(ARPGs). Specifically, our CombatVLA is a 3B model trained on video-action pairs collected by an action tracker, where the data is formatted as action-of-thought (AoT) sequences. Thereafter, CombatVLA seamlessly integrates into an action execution framework, allowing efficient inference through our truncated AoT strategy. Experimental results demonstrate that CombatVLA not only outperforms all existing models on the combat understanding benchmark but also achieves a 50-fold acceleration in game combat. Moreover, it has a higher task success rate than human players. We will open-source all resources, including the action tracker, dataset, benchmark, model weights, training code, and the implementation of the framework at https://combatvla.github.io/.

arxiv情報

著者 Peng Chen,Pi Bu,Yingyao Wang,Xinyi Wang,Ziming Wang,Jie Guo,Yingxiu Zhao,Qi Zhu,Jun Song,Siran Yang,Jiamang Wang,Bo Zheng
発行日 2025-03-12 16:42:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games はコメントを受け付けていません

Evaluating Visual Explanations of Attention Maps for Transformer-based Medical Imaging

要約

視覚変圧器(VITS)は最近、医療画像の問題で優れた性能を示していますが、畳み込みニューラルネットワークなどの以前のアーキテクチャと同様の説明可能性の問題に直面しています。
最近の研究の取り組みは、VITの意思決定プロセスの一部である注意マップが、特に自己監視学習で前提としたモデルで、予測に影響を与える領域に影響を与えることにより、説明可能性の問題に潜在的に対処できることを示唆しています。
この作業では、注意マップの視覚的な説明を、医療画像の問題に他の一般的に使用される方法と比較します。
そのために、(1)結腸ポリープ、(2)乳房腫瘍、(3)食道炎症、および(4)骨骨折とハードウェアインプラントの識別を含む4つの異なる医療画像データセットを使用します。
前述のデータセットでの大規模な実験により、さまざまな監視された自己監視や自己監視の前のvitsを使用して、注意マップは特定の条件下で有望であることを示し、一般的に説明可能性のGRADCAMを上回りますが、変圧器固有の解釈可能性方法によってアウトパフォームされていることがわかります。
私たちの調査結果は、解釈可能性の方法としての注意マップの有効性はコンテキスト依存性であり、堅牢な医療意思決定に必要な包括的な洞察を一貫して提供しないため、制限される可能性があることを示しています。

要約(オリジナル)

Although Vision Transformers (ViTs) have recently demonstrated superior performance in medical imaging problems, they face explainability issues similar to previous architectures such as convolutional neural networks. Recent research efforts suggest that attention maps, which are part of decision-making process of ViTs can potentially address the explainability issue by identifying regions influencing predictions, especially in models pretrained with self-supervised learning. In this work, we compare the visual explanations of attention maps to other commonly used methods for medical imaging problems. To do so, we employ four distinct medical imaging datasets that involve the identification of (1) colonic polyps, (2) breast tumors, (3) esophageal inflammation, and (4) bone fractures and hardware implants. Through large-scale experiments on the aforementioned datasets using various supervised and self-supervised pretrained ViTs, we find that although attention maps show promise under certain conditions and generally surpass GradCAM in explainability, they are outperformed by transformer-specific interpretability methods. Our findings indicate that the efficacy of attention maps as a method of interpretability is context-dependent and may be limited as they do not consistently provide the comprehensive insights required for robust medical decision-making.

arxiv情報

著者 Minjae Chung,Jong Bum Won,Ganghyun Kim,Yujin Kim,Utku Ozbulak
発行日 2025-03-12 16:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Evaluating Visual Explanations of Attention Maps for Transformer-based Medical Imaging はコメントを受け付けていません

GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals

要約

人間のポーズ推定(HPE)は、さまざまな用途の人体関節の位置を検出します。
カメラの使用と比較して、無線周波数(RF)信号を使用したHPEは邪魔にならず、悪影響に対してより堅牢であり、人間の干渉によって引き起こされる信号の変動を活用します。
ただし、既存の研究は、ドメイン固有の交絡因子に限定された単一ドメインHPEに焦点を当てており、新しいドメインに一般化することができず、HPEパフォーマンスが低下します。
具体的には、異なる人体の部分によって引き起こされる信号の変動は、被験者固有の交絡因子を含む絡み合っています。
RF信号は、環境固有の交絡因子を含む環境ノイズとも絡み合っています。
この論文では、ドメイン固有の交絡因子を排除するために反事実的なRF信号を生成する3D HPEアプローチであるGenhpeを提案します。
Genhpeは、人間の骨格ラベルに条件付けられた生成モデルを訓練し、人体の部分と交絡因子がRFシグナルをどのように妨害するかを学びます。
スケルトンラベルを操作し(つまり、身体の部分を除去する)、生成モデルの反事実的条件として、反事実的なRF信号を合成します。
反事実的信号の違いは、ドメイン固有の交絡因子をほぼ排除し、エンコーダデコーダーモデルを正規化してドメインに依存しない表現を学習します。
このような表現は、genhpeがクロスドメイン3D HPEの新しい被験者/環境に一般化するのに役立ちます。
WiFi、超幅、ミリ波の3つのパブリックデータセットでGenhpeを評価します。
実験結果は、Genhpeが最先端の方法よりも優れており、クロスサブジェクトHPEで最大52.2mm、環境横断HPEで10.6mmを最大52.2mm減らすことを示しています。

要約(オリジナル)

Human pose estimation (HPE) detects the positions of human body joints for various applications. Compared to using cameras, HPE using radio frequency (RF) signals is non-intrusive and more robust to adverse conditions, exploiting the signal variations caused by human interference. However, existing studies focus on single-domain HPE confined by domain-specific confounders, which cannot generalize to new domains and result in diminished HPE performance. Specifically, the signal variations caused by different human body parts are entangled, containing subject-specific confounders. RF signals are also intertwined with environmental noise, involving environment-specific confounders. In this paper, we propose GenHPE, a 3D HPE approach that generates counterfactual RF signals to eliminate domain-specific confounders. GenHPE trains generative models conditioned on human skeleton labels, learning how human body parts and confounders interfere with RF signals. We manipulate skeleton labels (i.e., removing body parts) as counterfactual conditions for generative models to synthesize counterfactual RF signals. The differences between counterfactual signals approximately eliminate domain-specific confounders and regularize an encoder-decoder model to learn domain-independent representations. Such representations help GenHPE generalize to new subjects/environments for cross-domain 3D HPE. We evaluate GenHPE on three public datasets from WiFi, ultra-wideband, and millimeter wave. Experimental results show that GenHPE outperforms state-of-the-art methods and reduces estimation errors by up to 52.2mm for cross-subject HPE and 10.6mm for cross-environment HPE.

arxiv情報

著者 Shuokang Huang,Julie A. McCann
発行日 2025-03-12 16:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, eess.SP | GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals はコメントを受け付けていません