Enhancing Interpretability of Sparse Latent Representations with Class Information

要約

変分自動エンコーダー(VAE)は、潜在的な表現を学習するための強力な生成モデルです。
標準的なVAEは、すべての寸法を利用することにより分散されていない構造化されていない潜在スペースを生成し、特に高次元空間での解釈可能性を制限します。
この課題に対処するために、変分スパースコーディング(VSC)は、スパイクとスラブの事前分布を導入し、各入力にまばらな潜在表現をもたらします。
限られた数のアクティブな寸法を特徴とするこれらのまばらな表現は、本質的に解釈可能です。
この利点にもかかわらず、VSCは同じクラス内のサンプル全体で構造化された解釈を提供することに不足しています。
直感的に、同じクラスのサンプルは、これらの属性のバリエーションを可能にしながら、同様の属性を共有すると予想されます。
この期待は、潜在的な表現におけるアクティブな寸法の一貫したパターンとして現れるはずですが、VSCはそのような一貫性を強制しません。
この論文では、潜在空間のアクティブな寸法が同じクラス内のサンプル全体で一貫していることを保証することにより、潜在空間の解釈性を高めるための新しいアプローチを提案します。
これを達成するために、同じクラスのサンプルが同様のアクティブな寸法を共有するよう促す新しい損失関数を導入します。
このアライメントは、より構造化された解釈可能な潜在空間を作成します。そこでは、各共有寸法は高レベルの概念、または「因子」に対応します。
主にすべてのクラスで共有されているグローバル要因に焦点を当てた既存の解体ベースの方法とは異なり、この方法はグローバルおよびクラス固有の要因の両方をキャプチャし、それによって潜在表現の有用性と解釈可能性を高めます。

要約(オリジナル)

Variational Autoencoders (VAEs) are powerful generative models for learning latent representations. Standard VAEs generate dispersed and unstructured latent spaces by utilizing all dimensions, which limits their interpretability, especially in high-dimensional spaces. To address this challenge, Variational Sparse Coding (VSC) introduces a spike-and-slab prior distribution, resulting in sparse latent representations for each input. These sparse representations, characterized by a limited number of active dimensions, are inherently more interpretable. Despite this advantage, VSC falls short in providing structured interpretations across samples within the same class. Intuitively, samples from the same class are expected to share similar attributes while allowing for variations in those attributes. This expectation should manifest as consistent patterns of active dimensions in their latent representations, but VSC does not enforce such consistency. In this paper, we propose a novel approach to enhance the latent space interpretability by ensuring that the active dimensions in the latent space are consistent across samples within the same class. To achieve this, we introduce a new loss function that encourages samples from the same class to share similar active dimensions. This alignment creates a more structured and interpretable latent space, where each shared dimension corresponds to a high-level concept, or ‘factor.’ Unlike existing disentanglement-based methods that primarily focus on global factors shared across all classes, our method captures both global and class-specific factors, thereby enhancing the utility and interpretability of latent representations.

arxiv情報

著者 Farshad Sangari Abiz,Reshad Hosseini,Babak N. Araabi
発行日 2025-05-20 15:10:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Enhancing Interpretability of Sparse Latent Representations with Class Information はコメントを受け付けていません

SG-Reg: Generalizable and Efficient Scene Graph Registration

要約

このペーパーでは、2つの厳格なセマンティックシーングラフを登録するという課題に対処します。これは、自律エージェントがリモートエージェントに対して、または以前のマップに対してマップを登録する必要がある場合に重要な機能です。
古典的なセマンティック支援登録の手作りの記述子、または学習ベースのシーングラフ登録における地上の真実の注釈の信頼は、実際の現実世界環境での適用を妨げます。
課題に対処するために、シーングラフネットワークを設計して、セマンティックノードの複数のモダリティをエンコードします。オープンセットセマンティック機能、空間認識を備えたローカルトポロジ、および形状機能。
これらのモダリティは、コンパクトなセマンティックノード機能を作成するために融合しています。
一致するレイヤーは、粗から洗練された方法で対応を検索します。
バックエンドでは、対応に応じて変換を決定するために堅牢なポーズ推定器を使用します。
まばらで階層的なシーンの表現を維持することができます。
私たちのアプローチでは、GPUリソ​​ースが少なくなり、マルチエージェントタスクの通信帯域幅が少なくなります。
さらに、Vision Foundationモデルとセマンティックマッピングモジュールを使用して、セマンティックシーングラフを再構築する新しいデータ生成アプローチを設計します。
これは、地面の真実のセマンティック注釈に依存してデータを生成する以前の作品とは大きく異なります。
2つのエージェントスラムベンチマークでメソッドを検証します。
登録の成功率の観点から、手作りのベースラインを大幅に上回ります。
Visual Loop Closure Networksと比較して、当社の方法は、クエリフレームごとに52 kbの通信帯域幅のみを必要としながら、わずかに高い登録リコールを実現します。
コード:\ href {http://github.com/hkust-aerial-robotics/sg-reg} {http://github.com/hkust-aerial-robotics/sg-reg}。

要約(オリジナル)

This paper addresses the challenges of registering two rigid semantic scene graphs, an essential capability when an autonomous agent needs to register its map against a remote agent, or against a prior map. The hand-crafted descriptors in classical semantic-aided registration, or the ground-truth annotation reliance in learning-based scene graph registration, impede their application in practical real-world environments. To address the challenges, we design a scene graph network to encode multiple modalities of semantic nodes: open-set semantic feature, local topology with spatial awareness, and shape feature. These modalities are fused to create compact semantic node features. The matching layers then search for correspondences in a coarse-to-fine manner. In the back-end, we employ a robust pose estimator to decide transformation according to the correspondences. We manage to maintain a sparse and hierarchical scene representation. Our approach demands fewer GPU resources and fewer communication bandwidth in multi-agent tasks. Moreover, we design a new data generation approach using vision foundation models and a semantic mapping module to reconstruct semantic scene graphs. It differs significantly from previous works, which rely on ground-truth semantic annotations to generate data. We validate our method in a two-agent SLAM benchmark. It significantly outperforms the hand-crafted baseline in terms of registration success rate. Compared to visual loop closure networks, our method achieves a slightly higher registration recall while requiring only 52 KB of communication bandwidth for each query frame. Code available at: \href{http://github.com/HKUST-Aerial-Robotics/SG-Reg}{http://github.com/HKUST-Aerial-Robotics/SG-Reg}.

arxiv情報

著者 Chuhao Liu,Zhijian Qiao,Jieqi Shi,Ke Wang,Peize Liu,Shaojie Shen
発行日 2025-05-20 15:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SG-Reg: Generalizable and Efficient Scene Graph Registration はコメントを受け付けていません

Towards Rich Emotions in 3D Avatars: A Text-to-3D Avatar Generation Benchmark

要約

話し言葉から派生したテキスト(EMO3D)から感情的に動的に3Dフェイシャルアバターを生産することは、3Dアバター世代の極めて重要な研究トピックでした。
一般的な3Dアバター生成では進歩がなされていますが、主に話された言葉から豊かな感情を特定してレンダリングする複雑さのために、感情的な3Dアバターを生成することの調査は依然として不足しています。
このペーパーは、EMO3Dの世代を再検討し、人間のプロセスからインスピレーションを引き出し、EMO3Dを2つのカスケードステップに分割します:テキストから3Dの式マッピング(T3DEM)と3Dアバターレンダリング(3DAR)。
T3DEMは、EMO3D生成の品質を決定する上で最も重要なステップであり、3つの重要な課題を包含します。表現の多様性、感情コンセントの一貫性、および表現の流動性です。
これらの課題に対処するために、EMO3D世代の研究を進めるための新しいベンチマークを紹介します。
まず、T3DEMの大規模で高品質のデータセットであるEmoavaを提示します。これは、EMO3D世代の前述の3つの課題を特徴付ける15,000のテキストから3Dの式マッピングを含むものです。
さらに、これらの特定された課題に対してモデルを効果的に評価するために、さまざまなメトリックを開発します。
次に、T3DEMステップでの人間の表現の一貫性、多様性、流動性を効果的にモデル化するために、潜在的な時間的注意と発現とワイズの注意メカニズムで強化された発現コード生成のために自己回帰条件付き変分変異オートエンコーダーを使用する連続テキストから発現の発生器を提案します。
最後に、高品質の微妙な表現をレンダリングするための3DARステップをさらに強化するために、グローバルに基づいたガウスアバター(GIGA)モデルを紹介します。
GIGAは、グローバルな情報メカニズムを3Dガウス表現に組み込み、感情状態間の微妙な微小発現とシームレスな遷移のキャプチャを可能にします。

要約(オリジナル)

Producing emotionally dynamic 3D facial avatars with text derived from spoken words (Emo3D) has been a pivotal research topic in 3D avatar generation. While progress has been made in general-purpose 3D avatar generation, the exploration of generating emotional 3D avatars remains scarce, primarily due to the complexities of identifying and rendering rich emotions from spoken words. This paper reexamines Emo3D generation and draws inspiration from human processes, breaking down Emo3D into two cascading steps: Text-to-3D Expression Mapping (T3DEM) and 3D Avatar Rendering (3DAR). T3DEM is the most crucial step in determining the quality of Emo3D generation and encompasses three key challenges: Expression Diversity, Emotion-Content Consistency, and Expression Fluidity. To address these challenges, we introduce a novel benchmark to advance research in Emo3D generation. First, we present EmoAva, a large-scale, high-quality dataset for T3DEM, comprising 15,000 text-to-3D expression mappings that characterize the aforementioned three challenges in Emo3D generation. Furthermore, we develop various metrics to effectively evaluate models against these identified challenges. Next, to effectively model the consistency, diversity, and fluidity of human expressions in the T3DEM step, we propose the Continuous Text-to-Expression Generator, which employs an autoregressive Conditional Variational Autoencoder for expression code generation, enhanced with Latent Temporal Attention and Expression-wise Attention mechanisms. Finally, to further enhance the 3DAR step on rendering higher-quality subtle expressions, we present the Globally-informed Gaussian Avatar (GiGA) model. GiGA incorporates a global information mechanism into 3D Gaussian representations, enabling the capture of subtle micro-expressions and seamless transitions between emotional states.

arxiv情報

著者 Haidong Xu,Meishan Zhang,Hao Ju,Zhedong Zheng,Erik Cambria,Min Zhang,Hao Fei
発行日 2025-05-20 15:17:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards Rich Emotions in 3D Avatars: A Text-to-3D Avatar Generation Benchmark はコメントを受け付けていません

RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training

要約

人工知能(AI)と放射線学の統合は、医学の変革的時代を示しています。
Vision Foundationモデルが採用され、放射線学的イメージング分析が強化されています。
ただし、放射線2Dおよび3D放射線データの明確な複雑さは、一般的な非医療画像で事前に訓練された既存のモデルが適切に対処できないという独自の課題をもたらします。
このギャップを橋渡しし、放射線科学イメージングに必要な診断精度を活用するために、放射線学的な対照的な言語イメージ(RADCLIP)を紹介します。
RadClipは、対照的な言語イメージのプリトレーニング(クリップ)に基づいて、体積画像解析に合わせたスライスプーリングメカニズムを組み込んでおり、放射線学的画像テキストペアの大規模で多様なデータセットを使用して事前に訓練されています。
RadClipは、放射線画像を対応するテキスト注釈と効果的に整列させるために事前に訓練されており、放射線画像の堅牢なビジョンバックボーンを作成しました。
広範な実験は、大学モーダルの放射線画像分類とクロスモーダル画像テキストマッチングの両方でRadClipの優れた性能を示し、臨床環境の診断精度と効率を改善するための重要な約束を強調しています。
私たちの重要な貢献には、多様な放射線2D/3D放射線画像テキストペアを使用した大規模なデータセットのキュレーション、2D画像を統合するための注意メカニズムを使用したスライスプーリングアダプター、さまざまな放射線学的下流タスクでのRadClipの包括的な評価が含まれます。

要約(オリジナル)

The integration of artificial intelligence (AI) with radiology marks a transformative era in medicine. Vision foundation models have been adopted to enhance radiologic imaging analysis. However, the distinct complexities of radiologic 2D and 3D radiologic data pose unique challenges that existing models, pre-trained on general non-medical images, fail to address adequately. To bridge this gap and capitalize on the diagnostic precision required in radiologic imaging, we introduce Radiologic Contrastive Language-Image Pre-training (RadCLIP): a cross-modal vision-language foundational model that harnesses Vision Language Pre-training (VLP) framework to improve radiologic image analysis. Building upon Contrastive Language-Image Pre-training (CLIP), RadCLIP incorporates a slice pooling mechanism tailored for volumetric image analysis and is pre-trained using a large and diverse dataset of radiologic image-text pairs. The RadCLIP was pre-trained to effectively align radiologic images with their corresponding text annotations, creating a robust vision backbone for radiologic images. Extensive experiments demonstrate RadCLIP’s superior performance in both uni-modal radiologic image classification and cross-modal image-text matching, highlighting its significant promise for improving diagnostic accuracy and efficiency in clinical settings. Our Key contributions include curating a large dataset with diverse radiologic 2D/3D radiologic image-text pairs, a slice pooling adapter using an attention mechanism for integrating 2D images, and comprehensive evaluations of RadCLIP on various radiologic downstream tasks.

arxiv情報

著者 Zhixiu Lu,Hailong Li,Nehal A. Parikh,Jonathan R. Dillman,Lili He
発行日 2025-05-20 15:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training はコメントを受け付けていません

Technical Report: Quantifying and Analyzing the Generalization Power of a DNN

要約

このペーパーでは、ディープニューラルネットワーク(DNNS)の一般化力を分析するための新しい視点を提案します。つまり、トレーニングプロセスを通じてDNNによってエンコードされた一般化可能であり、一般化できない相互作用のダイナミクスを直接解き放ち、分析します。
具体的には、この作業は、説明可能なAIにおける最近の理論的成果に基づいています。これは、DNNの詳細な推論ロジックが少数の相互作用パターンとして厳密に書き直される可能性があることを証明しています。
これに基づいて、各相互作用の一般化力を定量化する効率的な方法を提案し、トレーニング中の相互作用の一般化パワーの明確な3フェーズダイナミクスを発見します。
特に、トレーニングの初期段階では、通常、ノイズが多く、一般化できない相互作用を除去し、シンプルで一般化可能な相互作用を学習します。
2番目と3番目のフェーズは、一般化が難しいますます複雑な相互作用をキャプチャする傾向があります。
実験結果では、非一般化できない相互作用の学習が、トレーニングとテストの損失の間のギャップの直接的な原因であることを確認します。

要約(オリジナル)

This paper proposes a new perspective for analyzing the generalization power of deep neural networks (DNNs), i.e., directly disentangling and analyzing the dynamics of generalizable and non-generalizable interaction encoded by a DNN through the training process. Specifically, this work builds upon the recent theoretical achievement in explainble AI, which proves that the detailed inference logic of DNNs can be can be strictly rewritten as a small number of AND-OR interaction patterns. Based on this, we propose an efficient method to quantify the generalization power of each interaction, and we discover a distinct three-phase dynamics of the generalization power of interactions during training. In particular, the early phase of training typically removes noisy and non-generalizable interactions and learns simple and generalizable ones. The second and the third phases tend to capture increasingly complex interactions that are harder to generalize. Experimental results verify that the learning of non-generalizable interactions is the the direct cause for the gap between the training and testing losses.

arxiv情報

著者 Yuxuan He,Junpeng Zhang,Lei Cheng,Hongyuan Zhang,Quanshi Zhang
発行日 2025-05-20 15:25:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Technical Report: Quantifying and Analyzing the Generalization Power of a DNN はコメントを受け付けていません

Multimodal Fusion of Glucose Monitoring and Food Imagery for Caloric Content Prediction

要約

2型糖尿病の管理には効果的な食事監視が重要ですが、カロリー摂取量を正確に推定することは大きな課題です。
連続グルコースモニター(CGM)は貴重な生理学的データを提供しますが、個人間および食事固有の変動により、食事の完全な栄養プロファイルをキャプチャするのに不足していることがよくあります。
この作業では、CGMの時系列データ、人口統計/微生物叢、および食品前の食品画像を共同でレバレバリングするマルチモーダルディープラーニングフレームワークを紹介し、カロリーの推定を強化します。
私たちのモデルは、注意ベースのエンコーディングと食事の画像のための畳み込み特徴抽出、CGMのための多層パーセプロン、およびマイクロビオームデータに続いて、共同推論のための後期融合戦略を利用します。
同期されたCGM、人口統計およびマイクロビオームのデータ、および標準化されたカロリーラベルを備えた食事写真を組み込んだ40人以上の参加者のキュレーションされたデータセットでアプローチを評価します。
私たちのモデルは、0.2544のルート平均二乗相対誤差(RMSRE)を達成し、ベースラインモデルを50%以上上回ります。
これらの発見は、慢性疾患管理のための自動化された食事評価ツールを改善するためのマルチモーダルセンシングの可能性を示しています。

要約(オリジナル)

Effective dietary monitoring is critical for managing Type 2 diabetes, yet accurately estimating caloric intake remains a major challenge. While continuous glucose monitors (CGMs) offer valuable physiological data, they often fall short in capturing the full nutritional profile of meals due to inter-individual and meal-specific variability. In this work, we introduce a multimodal deep learning framework that jointly leverages CGM time-series data, Demographic/Microbiome, and pre-meal food images to enhance caloric estimation. Our model utilizes attention based encoding and a convolutional feature extraction for meal imagery, multi-layer perceptrons for CGM and Microbiome data followed by a late fusion strategy for joint reasoning. We evaluate our approach on a curated dataset of over 40 participants, incorporating synchronized CGM, Demographic and Microbiome data and meal photographs with standardized caloric labels. Our model achieves a Root Mean Squared Relative Error (RMSRE) of 0.2544, outperforming the baselines models by over 50%. These findings demonstrate the potential of multimodal sensing to improve automated dietary assessment tools for chronic disease management.

arxiv情報

著者 Adarsh Kumar
発行日 2025-05-20 15:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Multimodal Fusion of Glucose Monitoring and Food Imagery for Caloric Content Prediction はコメントを受け付けていません

Spectral-Spatial Self-Supervised Learning for Few-Shot Hyperspectral Image Classification

要約

ハイパースペクトル画像(HSI)のいくつかのショット分類は、希少なラベル付きサンプルの課題に直面しています。
自己学習学習(SSL)および少数のショット学習(FSL)は、この問題に対処するための有望な道を提供します。
ただし、既存の方法は、HSIの空間的な幾何学的多様性に適応するのに苦労しており、十分なスペクトル事前知識を欠いています。
これらの課題に取り組むために、少数のショットHSI分類のパフォーマンスを向上させることを目的とした、少数のショットハイパースペクトル画像分類(S4L-FSC)の方法、スペクトル空間的学習学習を提案します。
具体的には、最初に不均一なデータセットを活用して、設計された回転ミラーの自己監視学習(RM-SSL)メソッドをFSLと組み合わせて、空間特徴抽出器を前処理します。
このアプローチにより、モデルは、監督信号として回転とミラーリングラベルを使用してHSIの空間的幾何学的多様性を学習し、少数のショット学習を通じて転送可能な空間メタ知識を取得します。
その後、均質なデータセットは、FSLとマスクされた再構成の自己監視学習(MR-SSL)の組み合わせを介してスペクトル特徴抽出器を冒険するために利用されます。
このモデルは、ランダムにマスクされたスペクトルベクトルから元のスペクトル情報を再構築することを学び、スペクトル依存性を推測します。
並行して、FSLはモデルをガイドして、ピクセルレベルの識別機能を抽出し、それによりモデルに豊富なスペクトルプライアーを埋め込みます。
このスペクトル空間前除去法は、不均一および均質なソースからの知識の統合とともに、モデルのパフォーマンスを大幅に向上させます。
4つのHSIデータセットでの広範な実験は、少数のショットHSI分類のために提案されたS4L-FSCアプローチの有効性と優位性を示しています。

要約(オリジナル)

Few-shot classification of hyperspectral images (HSI) faces the challenge of scarce labeled samples. Self-Supervised learning (SSL) and Few-Shot Learning (FSL) offer promising avenues to address this issue. However, existing methods often struggle to adapt to the spatial geometric diversity of HSIs and lack sufficient spectral prior knowledge. To tackle these challenges, we propose a method, Spectral-Spatial Self-Supervised Learning for Few-Shot Hyperspectral Image Classification (S4L-FSC), aimed at improving the performance of few-shot HSI classification. Specifically, we first leverage heterogeneous datasets to pretrain a spatial feature extractor using a designed Rotation-Mirror Self-Supervised Learning (RM-SSL) method, combined with FSL. This approach enables the model to learn the spatial geometric diversity of HSIs using rotation and mirroring labels as supervisory signals, while acquiring transferable spatial meta-knowledge through few-shot learning. Subsequently, homogeneous datasets are utilized to pretrain a spectral feature extractor via a combination of FSL and Masked Reconstruction Self-Supervised Learning (MR-SSL). The model learns to reconstruct original spectral information from randomly masked spectral vectors, inferring spectral dependencies. In parallel, FSL guides the model to extract pixel-level discriminative features, thereby embedding rich spectral priors into the model. This spectral-spatial pretraining method, along with the integration of knowledge from heterogeneous and homogeneous sources, significantly enhances model performance. Extensive experiments on four HSI datasets demonstrate the effectiveness and superiority of the proposed S4L-FSC approach for few-shot HSI classification.

arxiv情報

著者 Wenchen Chen,Yanmei Zhang,Zhongwei Xiao,Jianping Chu,Xingbo Wang
発行日 2025-05-20 15:28:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Spectral-Spatial Self-Supervised Learning for Few-Shot Hyperspectral Image Classification はコメントを受け付けていません

Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment

要約

このホワイトペーパーでは、人間のドメインの知識に従って、LLMの潜在的な誤った表現を特定するために、法的LLMのケーススタディで判断のために大規模な言語モデル(LLM)が使用する推論パターンを分析する方法を提示します。
言語生成の結果に関する従来の評価とは異なり、一見正しい出力の背後にあるLLMの詳細な推論パターンの正確性を評価することを提案します。
この目的のために、最近の理論的な成果は、相互作用ベースの説明の忠実さのいくつかの数学的保証が証明されているため、LLMが原始的な推論パターンとして使用する入力フレーズ間の相互作用を定量化します。
LLMの詳細な推論パターンを評価するために、一連のメトリックを設計します。
実験は、言語生成の結果が正しいと思われる場合でも、法的判断のためにLLMが使用する推論パターンのかなりの部分が、誤解を招くまたは無関係な論理を表す可能性があることを示しています。

要約(オリジナル)

This paper presents a method to analyze the inference patterns used by Large Language Models (LLMs) for judgment in a case study on legal LLMs, so as to identify potential incorrect representations of the LLM, according to human domain knowledge. Unlike traditional evaluations on language generation results, we propose to evaluate the correctness of the detailed inference patterns of an LLM behind its seemingly correct outputs. To this end, we quantify the interactions between input phrases used by the LLM as primitive inference patterns, because recent theoretical achievements have proven several mathematical guarantees of the faithfulness of the interaction-based explanation. We design a set of metrics to evaluate the detailed inference patterns of LLMs. Experiments show that even when the language generation results appear correct, a significant portion of the inference patterns used by the LLM for the legal judgment may represent misleading or irrelevant logic.

arxiv情報

著者 Lu Chen,Yuxuan Huang,Yixing Li,Dongrui Liu,Qihan Ren,Shuai Zhao,Kun Kuang,Zilong Zheng,Quanshi Zhang
発行日 2025-05-20 15:29:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment はコメントを受け付けていません

Customized SAM 2 for Referring Remote Sensing Image Segmentation

要約

リモートセンシング画像セグメンテーション(RRSIS)を参照することは、テキストの説明に基づいて、リモートセンシング(RS)画像のターゲットオブジェクトをセグメント化することを目的としています。
セグメントでは、モデル2(SAM 2)はさまざまなセグメンテーションタスクで顕著なパフォーマンスを示していますが、RRSISへのアプリケーションは、テキストと説明されているRSシーンを理解し、テキストの説明から効果的なプロンプトを生成するなど、いくつかの課題を提示します。
これらの問題に対処するために、RS2-SAM 2を提案します。RS2-SAM 2は、適応されたRS機能とテキスト機能を調整し、擬似マスクベースの密度の高いプロンプトを提供し、境界制約を施行することにより、SAM 2をRRSIに適応させる新しいフレームワークです。
具体的には、まずユニオンエンコーダーを採用して、視覚とテキストの入力を共同でエンコードし、整列した視覚とテキストの埋め込み、マルチモーダルクラスのトークンを生成します。
次に、双方向の階層融合モジュールを設計して、SAM 2をRSシーンに適応させ、視覚的に視覚的に視覚的に強化されたテキスト埋め込みに合わせて、テキスト記載のRSシーンのモデルの解釈を改善します。
さらに、マスクプロンプトジェネレーターが導入され、視覚的な埋め込みとクラストークンを入力として採取し、SAM 2の密なプロンプトとして擬似マスクを生成します。
いくつかのRRSISベンチマークでの実験結果は、RS2-SAM 2が最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Referring Remote Sensing Image Segmentation (RRSIS) aims to segment target objects in remote sensing (RS) images based on textual descriptions. Although Segment Anything Model 2 (SAM 2) has shown remarkable performance in various segmentation tasks, its application to RRSIS presents several challenges, including understanding the text-described RS scenes and generating effective prompts from text descriptions. To address these issues, we propose RS2-SAM 2, a novel framework that adapts SAM 2 to RRSIS by aligning the adapted RS features and textual features, providing pseudo-mask-based dense prompts, and enforcing boundary constraints. Specifically, we first employ a union encoder to jointly encode the visual and textual inputs, generating aligned visual and text embeddings as well as multimodal class tokens. Then, we design a bidirectional hierarchical fusion module to adapt SAM 2 to RS scenes and align adapted visual features with the visually enhanced text embeddings, improving the model’s interpretation of text-described RS scenes. Additionally, a mask prompt generator is introduced to take the visual embeddings and class tokens as input and produce a pseudo-mask as the dense prompt of SAM 2. To further refine segmentation, we introduce a text-guided boundary loss to optimize segmentation boundaries by computing text-weighted gradient differences. Experimental results on several RRSIS benchmarks demonstrate that RS2-SAM 2 achieves state-of-the-art performance.

arxiv情報

著者 Fu Rong,Meng Lan,Qian Zhang,Lefei Zhang
発行日 2025-05-20 15:37:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Customized SAM 2 for Referring Remote Sensing Image Segmentation はコメントを受け付けていません

ReservoirTTA: Prolonged Test-time Adaptation for Evolving and Recurring Domains

要約

このペーパーでは、ドメインが徐々に再発または進化する場合を含む、テストドメインが時間とともに継続的にシフトするシナリオで、長時間のテスト時間適応(TTA)のために設計された新しいプラグインフレームワークであるReservoirttaを紹介します。
そのコアでは、Reservoirttaは、着信サンプルのスタイル上のオンラインクラスタリングを介してオンラインクラスタリングを介して新しいドメインを検出し、各サンプルを適切な専門モデルにルーティングし、それによってドメイン固有の適応を可能にするドメイン特別なモデルのリザーバー(適応テスト時間モデルアンサンブル)を維持しています。
このマルチモデル戦略は、壊滅的な忘却、ドメイン間干渉、エラーの蓄積など、単一モデル適応の重要な制限を克服し、持続的な非定常試験分布の堅牢で安定したパフォーマンスを確保します。
理論分析では、パラメーターの分散を結合し、モデルの崩壊を防ぐ重要なコンポーネントが明らかになり、プラグインTTAモジュールは、以前に遭遇したドメインの壊滅的な忘却を緩和します。
Imagenet-CやCIFAR-10/100-Cを含む分類腐敗ベンチマークの広範な実験、およびCityscapes $ \ rightArrow $ ACDCセマンティックセグメンテーションタスク、繰り返し進化するドメインのシフトをカバーすることで、リザーブアートが適応を大幅に改善し、国営シフトを廃止するための安定したパフォーマンスを維持することを実証します。
方法。

要約(オリジナル)

This paper introduces ReservoirTTA, a novel plug-in framework designed for prolonged test-time adaptation (TTA) in scenarios where the test domain continuously shifts over time, including cases where domains recur or evolve gradually. At its core, ReservoirTTA maintains a reservoir of domain-specialized models — an adaptive test-time model ensemble — that both detects new domains via online clustering over style features of incoming samples and routes each sample to the appropriate specialized model, and thereby enables domain-specific adaptation. This multi-model strategy overcomes key limitations of single model adaptation, such as catastrophic forgetting, inter-domain interference, and error accumulation, ensuring robust and stable performance on sustained non-stationary test distributions. Our theoretical analysis reveals key components that bound parameter variance and prevent model collapse, while our plug-in TTA module mitigates catastrophic forgetting of previously encountered domains. Extensive experiments on the classification corruption benchmarks, including ImageNet-C and CIFAR-10/100-C, as well as the Cityscapes$\rightarrow$ACDC semantic segmentation task, covering recurring and continuously evolving domain shifts, demonstrate that ReservoirTTA significantly improves adaptation accuracy and maintains stable performance across prolonged, recurring shifts, outperforming state-of-the-art methods.

arxiv情報

著者 Guillaume Vray,Devavrat Tomar,Xufeng Gao,Jean-Philippe Thiran,Evan Shelhamer,Behzad Bozorgtabar
発行日 2025-05-20 15:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ReservoirTTA: Prolonged Test-time Adaptation for Evolving and Recurring Domains はコメントを受け付けていません