ATRNet-STAR: A Large Dataset and Benchmark Towards Remote Sensing Object Recognition in the Wild

要約

合成アパーチャレーダーのための公開された大規模な高品質のデータセットがないことは、自動ターゲット認識(SAR ATR)のために、この分野で新しい機能をロック解除する大きな可能性を秘めた、迅速に進歩する深い学習技術の適用を大幅に妨げています。
これは主に、SAR画像から多様な多様なターゲットサンプルを収集することは、主にプライバシーの懸念、マイクロ波レーダー画像の知覚の特性、およびデータ注釈における専門的な専門知識の必要性のために、非常に高価であるためです。
SAR ATRの研究の歴史を通じて、主に船、飛行機、建物などのターゲットを含む多くの小さなデータセットしかありません。1990年代に収集された車両データセットMSTARは1つしかありません。これはSAR ATRの貴重なソースです。
このギャップを埋めるために、このペーパーでは、さまざまな現実的なイメージング条件とシーンで収集された40の異なる車両カテゴリを備えたAtrnet-Starという名前の大規模で新しいデータセットを紹介します。
データセットスケールと多様性の大幅な進歩を示しています。これは、190,000を超える承認されたサンプルで構成され、前任者である有名なMSTARの10倍大きくなります。
このような大きなデータセットを構築することは困難なタスクであり、データ収集スキームが詳細になります。
第二に、データセットから派生した挑戦的な分類と検出ベンチマークに関する7つの異なる実験的設定を使用して、15の代表的な方法のパフォーマンスを広く評価することにより、Atrnet-Starの価値を示します。
最後に、広範な実験に基づいて、SAR ATRの貴重な洞察を特定し、この分野の潜在的な将来の研究方向性について議論します。
Atrnet-Starの規模、多様性、およびベンチマークが、SAR ATRの進歩を大幅に促進できることを願っています。

要約(オリジナル)

The absence of publicly available, large-scale, high-quality datasets for Synthetic Aperture Radar Automatic Target Recognition (SAR ATR) has significantly hindered the application of rapidly advancing deep learning techniques, which hold huge potential to unlock new capabilities in this field. This is primarily because collecting large volumes of diverse target samples from SAR images is prohibitively expensive, largely due to privacy concerns, the characteristics of microwave radar imagery perception, and the need for specialized expertise in data annotation. Throughout the history of SAR ATR research, there have been only a number of small datasets, mainly including targets like ships, airplanes, buildings, etc. There is only one vehicle dataset MSTAR collected in the 1990s, which has been a valuable source for SAR ATR. To fill this gap, this paper introduces a large-scale, new dataset named ATRNet-STAR with 40 different vehicle categories collected under various realistic imaging conditions and scenes. It marks a substantial advancement in dataset scale and diversity, comprising over 190,000 well-annotated samples, 10 times larger than its predecessor, the famous MSTAR. Building such a large dataset is a challenging task, and the data collection scheme will be detailed. Secondly, we illustrate the value of ATRNet-STAR via extensively evaluating the performance of 15 representative methods with 7 different experimental settings on challenging classification and detection benchmarks derived from the dataset. Finally, based on our extensive experiments, we identify valuable insights for SAR ATR and discuss potential future research directions in this field. We hope that the scale, diversity, and benchmark of ATRNet-STAR can significantly facilitate the advancement of SAR ATR.

arxiv情報

著者 Yongxiang Liu,Weijie Li,Li Liu,Jie Zhou,Bowen Peng,Yafei Song,Xuying Xiong,Wei Yang,Tianpeng Liu,Zhen Liu,Xiang Li
発行日 2025-03-07 14:28:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ATRNet-STAR: A Large Dataset and Benchmark Towards Remote Sensing Object Recognition in the Wild はコメントを受け付けていません

OASIS Uncovers: High-Quality T2I Models, Same Old Stereotypes

要約

テキストからイメージ(T2I)モデルによって生成された画像は、しばしば文化や職業などの概念の視覚的バイアスとステレオタイプを示します。
ステレオタイプの既存の定量的尺度は、ステレオタイプの社会学的定義と一致しない統計的平等に基づいており、したがって、バイアスをステレオタイプとして分類します。
ステレオタイプをバイアスとして単純化する代わりに、その社会学的定義と一致するステレオタイプの定量的な尺度を提案します。
次に、OASISを提案して、生成されたデータセットでステレオタイプを測定し、T2Iモデル内のそれらの起源を理解します。
OASISには、生成された画像データセットからステレオタイプを測定するための2つのスコアが含まれています。(M1)ステレオタイプの属性の分布違反を測定するステレオタイプスコア、および(M2)WALは、ステレオタイプの属性に沿った画像のスペクトル分散を測定します。
OASISには、T2Iモデルのステレオタイプの起源を理解するための2つの方法も含まれています。(U1)T2Iモデルが特定の概念と内部的に関連する属性を発見し、(U2)SPIが画像生成中のT2Iモデルの潜在空間におけるステレオタイプの属性の出現を定量化する。
OASISを使用して、画像の忠実度のかなりの進歩にもかかわらず、Flux.1やSDV3などの新しいT2Iモデルには、概念に関する強力なステレオタイプの素因が含まれており、広範囲にわたるステレオタイプの属性を持つ画像を生成すると結論付けています。
さらに、ステレオタイプの量は、インターネットのフットプリントが低い国籍のために悪化します。

要約(オリジナル)

Images generated by text-to-image (T2I) models often exhibit visual biases and stereotypes of concepts such as culture and profession. Existing quantitative measures of stereotypes are based on statistical parity that does not align with the sociological definition of stereotypes and, therefore, incorrectly categorizes biases as stereotypes. Instead of oversimplifying stereotypes as biases, we propose a quantitative measure of stereotypes that aligns with its sociological definition. We then propose OASIS to measure the stereotypes in a generated dataset and understand their origins within the T2I model. OASIS includes two scores to measure stereotypes from a generated image dataset: (M1) Stereotype Score to measure the distributional violation of stereotypical attributes, and (M2) WALS to measure spectral variance in the images along a stereotypical attribute. OASIS also includes two methods to understand the origins of stereotypes in T2I models: (U1) StOP to discover attributes that the T2I model internally associates with a given concept, and (U2) SPI to quantify the emergence of stereotypical attributes in the latent space of the T2I model during image generation. Despite the considerable progress in image fidelity, using OASIS, we conclude that newer T2I models such as FLUX.1 and SDv3 contain strong stereotypical predispositions about concepts and still generate images with widespread stereotypical attributes. Additionally, the quantity of stereotypes worsens for nationalities with lower Internet footprints.

arxiv情報

著者 Sepehr Dehdashtian,Gautam Sreekumar,Vishnu Naresh Boddeti
発行日 2025-03-07 14:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.LG | OASIS Uncovers: High-Quality T2I Models, Same Old Stereotypes はコメントを受け付けていません

Automatic Teaching Platform on Vision Language Retrieval Augmented Generation

要約

教育を自動化することは、人間の相互作用と適応性を複製することが複雑であるため、ユニークな課題を提示します。
自動化されたシステムは、多くの場合、学生の個々の学習ペースや理解レベルに合わせた微妙なリアルタイムフィードバックを提供することはできません。これは、多様なニーズに対する効果的なサポートを妨げる可能性があります。
これは、抽象的な概念が適応的な説明を必要とする分野では特に困難です。
この論文では、理解を高めることができるコンテキストに関連する視覚的に濃縮された応答を提供することにより、このギャップを埋める可能性を秘めたビジョン言語検索拡張生成(VL-RAG)システムを提案します。
テーラードの回答と画像のデータベースを活用することにより、VL-RAGシステムは、特定の質問に沿った情報を動的に取得でき、よりインタラクティブで魅力的なエクスペリエンスを作成し、より深い理解と積極的な学生参加を促進します。
学生は視覚的および口頭で概念を探求し、より深い理解を促進し、さまざまな主題やコース素材を拡大する柔軟性を維持しながら、人間の絶え間ない監視の必要性を減らすことができます。

要約(オリジナル)

Automating teaching presents unique challenges, as replicating human interaction and adaptability is complex. Automated systems cannot often provide nuanced, real-time feedback that aligns with students’ individual learning paces or comprehension levels, which can hinder effective support for diverse needs. This is especially challenging in fields where abstract concepts require adaptive explanations. In this paper, we propose a vision language retrieval augmented generation (named VL-RAG) system that has the potential to bridge this gap by delivering contextually relevant, visually enriched responses that can enhance comprehension. By leveraging a database of tailored answers and images, the VL-RAG system can dynamically retrieve information aligned with specific questions, creating a more interactive and engaging experience that fosters deeper understanding and active student participation. It allows students to explore concepts visually and verbally, promoting deeper understanding and reducing the need for constant human oversight while maintaining flexibility to expand across different subjects and course material.

arxiv情報

著者 Ruslan Gokhman,Jialu Li,Youshan Zhang
発行日 2025-03-07 14:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY | Automatic Teaching Platform on Vision Language Retrieval Augmented Generation はコメントを受け付けていません

PRAM: Place Recognition Anywhere Model for Efficient Visual Localization

要約

視覚的ローカリゼーションは、自律運転、AR/VR、ロボット工学など、さまざまなアプリケーションにとって重要な手法です。
これらの実際のアプリケーションでは、特にコンピューティングリソースが限られているエッジデバイスでは、効率と精度の両方が重要です。
ただし、以前のフレームワーク、たとえば、絶対ポーズ回帰(APR)、シーン座標回帰(SCR)、および階層法(HM)は、屋内環境と屋外環境の両方で精度または効率を制限しています。
このホワイトペーパーでは、3Dランドマークを認識して視覚的なローカリゼーションを効率的かつ正確に実行するための新しいフレームワークであるPlace認識モデル(PRAM)を提案します。
具体的には、PRAMは最初に、自己補助的な方法で3Dスペースで直接ランドマークを生成します。
一般的に使用される古典的なセマンティックラベルに依存することなく、これらの3Dランドマークは、一般化能力が高い屋内および屋外シーンの任意の場所で定義できます。
3Dランドマークでマップを表すと、Pramはグローバルな記述子、繰り返しローカル記述子、および冗長な3Dポイントを破棄し、メモリ効率を大幅に向上させます。
次に、密なピクセルではなく、スパースキーポイントが、ランドマーク認識のためにトランスベースの認識モジュールへの入力トークンとして利用されます。
テスト時には、スパースキーポイントと予測されたランドマークラベルは、徹底的な2D-2Dマッチングとは対照的に、外れ値の除去とランドマークの2D-3Dマッチングに使用され、時間の効率がさらに向上します。
屋内および屋外の両方のデータセットでのAPR、SCR、HMS、およびPRAMの包括的な評価は、PRAMが大規模なマージンでARPとSCRSを大幅に上回り、HMSに競争力のある精度を上回り、90 \%メモリコストを削減し、2.4倍の速度を高めることを示しています。

要約(オリジナル)

Visual localization is a key technique to a variety of applications, e.g., autonomous driving, AR/VR, and robotics. For these real applications, both efficiency and accuracy are important especially on edge devices with limited computing resources. However, previous frameworks, e.g., absolute pose regression (APR), scene coordinate regression (SCR), and the hierarchical method (HM), have limited either accuracy or efficiency in both indoor and outdoor environments. In this paper, we propose the place recognition anywhere model (PRAM), a new framework, to perform visual localization efficiently and accurately by recognizing 3D landmarks. Specifically, PRAM first generates landmarks directly in 3D space in a self-supervised manner. Without relying on commonly used classic semantic labels, these 3D landmarks can be defined in any place in indoor and outdoor scenes with higher generalization ability. Representing the map with 3D landmarks, PRAM discards global descriptors, repetitive local descriptors, and redundant 3D points, increasing the memory efficiency significantly. Then, sparse keypoints, rather than dense pixels, are utilized as the input tokens to a transformer-based recognition module for landmark recognition, which enables PRAM to recognize hundreds of landmarks with high time and memory efficiency. At test time, sparse keypoints and predicted landmark labels are utilized for outlier removal and landmark-wise 2D-3D matching as opposed to exhaustive 2D-2D matching, which further increases the time efficiency. A comprehensive evaluation of APRs, SCRs, HMs, and PRAM on both indoor and outdoor datasets demonstrates that PRAM outperforms ARPs and SCRs in large-scale scenes with a large margin and gives competitive accuracy to HMs but reduces over 90\% memory cost and runs 2.4 times faster, leading to a better balance between efficiency and accuracy.

arxiv情報

著者 Fei Xue,Ignas Budvytis,Roberto Cipolla
発行日 2025-03-07 14:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PRAM: Place Recognition Anywhere Model for Efficient Visual Localization はコメントを受け付けていません

DecoupledGaussian: Object-Scene Decoupling for Physics-Based Interaction

要約

デコードガウスは、現実的なニュートンベースの物理シミュレーションの重要な前提条件である、ワイルド内のビデオをキャプチャした連絡先の表面から静的オブジェクトを切り離す新しいシステムです。
合成データや接触面に沿って弾力性のジッタリングに焦点を当てた以前の方法とは異なり、オブジェクトが独立して完全に分離または移動するのを防ぎますが、デカップガウスは、最初の接触面に制約されることなく、大幅な位置変化を可能にします。
3Dロケーションを復元するための現在の2Dのインパインティングツールの制限を認識して、私たちのアプローチは、分離後に両方のオブジェクトのガウスと連絡されたシーンを修復および拡張するための共同ポアソンフィールドを提案しています。
これは、オブジェクトのジオメトリを改良するためのマルチカーブ戦略によって補完されます。
当社のシステムにより、複数のシーン内および複数のシーンでの複雑な相互作用をサポートするユーザー指定のインパルスによって駆動されるデカップリングモーション、衝突、および骨折の現実的なシミュレーションが可能になります。
包括的なユーザー調査と定量的ベンチマークを通じて、デコードガウスを検証します。
このシステムは、VR、ロボット工学、自律運転などの産業に利益をもたらす、実際の環境でのオブジェクトやシーンとのデジタル相互作用を強化します。
プロジェクトページは、https://wangmiaowei.github.io/decoupledgaussian.github.io/にあります。

要約(オリジナル)

We present DecoupledGaussian, a novel system that decouples static objects from their contacted surfaces captured in-the-wild videos, a key prerequisite for realistic Newtonian-based physical simulations. Unlike prior methods focused on synthetic data or elastic jittering along the contact surface, which prevent objects from fully detaching or moving independently, DecoupledGaussian allows for significant positional changes without being constrained by the initial contacted surface. Recognizing the limitations of current 2D inpainting tools for restoring 3D locations, our approach proposes joint Poisson fields to repair and expand the Gaussians of both objects and contacted scenes after separation. This is complemented by a multi-carve strategy to refine the object’s geometry. Our system enables realistic simulations of decoupling motions, collisions, and fractures driven by user-specified impulses, supporting complex interactions within and across multiple scenes. We validate DecoupledGaussian through a comprehensive user study and quantitative benchmarks. This system enhances digital interaction with objects and scenes in real-world environments, benefiting industries such as VR, robotics, and autonomous driving. Our project page is at: https://wangmiaowei.github.io/DecoupledGaussian.github.io/.

arxiv情報

著者 Miaowei Wang,Yibo Zhang,Rui Ma,Weiwei Xu,Changqing Zou,Daniel Morris
発行日 2025-03-07 14:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | DecoupledGaussian: Object-Scene Decoupling for Physics-Based Interaction はコメントを受け付けていません

FastMap: Fast Queries Initialization Based Vectorized HD Map Reconstruction Framework

要約

高解像度マップの再構築は、自律運転環境を知覚する上で重要なタスクです。その精度は、下流モジュールの予測能力と計画機能の信頼性に直接影響するためです。
DETRフレームワークに基づく現在のベクトル化されたマップ再構成方法は、デコーダー構造の冗長性による制限があり、パフォーマンスを維持するために6つのデコーダー層の積み重ねを必要とし、計算効率を大幅に妨げます。
この問題に取り組むために、既存のアプローチでのデコーダー冗長性を減らすために設計された革新的なフレームワークであるFastMapを紹介します。
FastMapは、マルチレベル表現機能を実現する単一層の2段階変圧器を使用することにより、デコーダーアーキテクチャを最適化します。
私たちのフレームワークは、ランダムにクエリを初期化する従来の慣行を排除し、代わりにデコードフェーズ中にヒートマップ誘導クエリ生成モジュールを組み込みます。
さらに、FastMapの幾何学的に制約されたポイントツーライン損失メカニズムを提案します。これは、従来のポイントツーポイント損失計算でしばしば発生する非常に均質な特徴を区別するという課題に慣れています。
広範な実験は、FastMapがヌスセンとArgoverse2データセットの両方で最先端のパフォーマンスを達成し、デコーダーがベースラインよりも3.2速で動作することを示しています。
コードとその他のデモは、https://github.com/hht1996ok/fastmapで入手できます。

要約(オリジナル)

Reconstruction of high-definition maps is a crucial task in perceiving the autonomous driving environment, as its accuracy directly impacts the reliability of prediction and planning capabilities in downstream modules. Current vectorized map reconstruction methods based on the DETR framework encounter limitations due to the redundancy in the decoder structure, necessitating the stacking of six decoder layers to maintain performance, which significantly hampers computational efficiency. To tackle this issue, we introduce FastMap, an innovative framework designed to reduce decoder redundancy in existing approaches. FastMap optimizes the decoder architecture by employing a single-layer, two-stage transformer that achieves multilevel representation capabilities. Our framework eliminates the conventional practice of randomly initializing queries and instead incorporates a heatmap-guided query generation module during the decoding phase, which effectively maps image features into structured query vectors using learnable positional encoding. Additionally, we propose a geometry-constrained point-to-line loss mechanism for FastMap, which adeptly addresses the challenge of distinguishing highly homogeneous features that often arise in traditional point-to-point loss computations. Extensive experiments demonstrate that FastMap achieves state-of-the-art performance in both nuScenes and Argoverse2 datasets, with its decoder operating 3.2 faster than the baseline. Code and more demos are available at https://github.com/hht1996ok/FastMap.

arxiv情報

著者 Haotian Hu,Jingwei Xu,Fanyi Wang,Toyota Li,Yaonong Wang,Laifeng Hu,Zhiwang Zhang
発行日 2025-03-07 15:01:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | FastMap: Fast Queries Initialization Based Vectorized HD Map Reconstruction Framework はコメントを受け付けていません

Completion as Enhancement: A Degradation-Aware Selective Image Guided Network for Depth Completion

要約

このホワイトペーパーでは、深さの完了を初めて深度強化に変換する新しい劣化アウェアフレームワークであるSelective Image Guided Network(Signet)を紹介します。
畳み込みニューラルネットワーク(CNNS)を使用して直接的な完成を超えて移動するSignetは、最初は非CNN密度化ツールを介してまばらな深さデータを濃くして、粗いが密な深さを取得します。
このアプローチは、不規則にサンプリングされたスパースデータに対する直接的な畳み込みによって引き起こされる不一致と曖昧さを排除します。
その後、Signetは完成を強化として再定義し、効果的なRGB-D融合のために粗い深さとターゲットの密な深さとの間に自己監視された分解ブリッジを確立します。
これを達成するために、Signetは暗黙の分解を活用して、RGBデータの高周波コンポーネント(エッジなど)を適応的に選択して、粗い深さを補正します。
この劣化は、マルチモーダル条件付きMAMBAにさらに統合され、状態パラメーターを動的に生成して、効率的なグローバルな高周波情報相互作用を可能にします。
NYUV2、DIML、SUN RGBD、およびTOFDCデータセットで広範な実験を実施し、Signetの最先端の(SOTA)パフォーマンスを実証します。

要約(オリジナル)

In this paper, we introduce the Selective Image Guided Network (SigNet), a novel degradation-aware framework that transforms depth completion into depth enhancement for the first time. Moving beyond direct completion using convolutional neural networks (CNNs), SigNet initially densifies sparse depth data through non-CNN densification tools to obtain coarse yet dense depth. This approach eliminates the mismatch and ambiguity caused by direct convolution over irregularly sampled sparse data. Subsequently, SigNet redefines completion as enhancement, establishing a self-supervised degradation bridge between the coarse depth and the targeted dense depth for effective RGB-D fusion. To achieve this, SigNet leverages the implicit degradation to adaptively select high-frequency components (e.g., edges) of RGB data to compensate for the coarse depth. This degradation is further integrated into a multi-modal conditional Mamba, dynamically generating the state parameters to enable efficient global high-frequency information interaction. We conduct extensive experiments on the NYUv2, DIML, SUN RGBD, and TOFDC datasets, demonstrating the state-of-the-art (SOTA) performance of SigNet.

arxiv情報

著者 Zhiqiang Yan,Zhengxue Wang,Kun Wang,Jun Li,Jian Yang
発行日 2025-03-07 15:33:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Completion as Enhancement: A Degradation-Aware Selective Image Guided Network for Depth Completion はコメントを受け付けていません

Removing Geometric Bias in One-Class Anomaly Detection with Adaptive Feature Perturbation

要約

ワンクラスの異常検出は、事前定義された通常のクラスに属さないオブジェクトを検出することを目的としています。
実際には、トレーニングデータがこれらの異常なサンプルを欠いています。
したがって、最先端の方法は、正常と合成に生成された擬似非類のないデータを区別するために訓練されています。
ほとんどの方法は、異常をシミュレートするために、通常の画像のデータ増強技術を使用します。
ただし、ベンチマークデータセットに存在する幾何学的なバイアスを暗黙的に活用しています。
これにより、より一般的な条件での使いやすさが制限されます。
その他は、通常のデータの基礎となる構造をキャプチャする際に最適ではない基本的なノーシングスキームに依存しています。
さらに、ほとんどが画像ドメインを支持して、通常のクラスのみからエンドツーエンドの擬似的なトレーニングモデルを生成し、情報のより豊かな表現を見下ろしています。
これらの制限を克服するために、凍結していたが豊富な特徴スペースが前処理されたモデルによって与えられると考え、新しい適応線形特徴摂動技術を備えた擬似非類似の特徴を作成します。
各サンプルにノイズ分布を適応させ、減衰線形摂動を適用してベクターを特徴とし、対照学習目標を使用して分類プロセスをさらにガイドします。
標準および幾何学的バイアスのないデータセットの両方で実施さ​​れた実験的評価は、同等のベースラインに関するアプローチの優位性を示しています。
コードベースには、パブリックリポジトリからアクセスできます。

要約(オリジナル)

One-class anomaly detection aims to detect objects that do not belong to a predefined normal class. In practice training data lack those anomalous samples; hence state-of-the-art methods are trained to discriminate between normal and synthetically-generated pseudo-anomalous data. Most methods use data augmentation techniques on normal images to simulate anomalies. However the best-performing ones implicitly leverage a geometric bias present in the benchmarking datasets. This limits their usability in more general conditions. Others are relying on basic noising schemes that may be suboptimal in capturing the underlying structure of normal data. In addition most still favour the image domain to generate pseudo-anomalies training models end-to-end from only the normal class and overlooking richer representations of the information. To overcome these limitations we consider frozen yet rich feature spaces given by pretrained models and create pseudo-anomalous features with a novel adaptive linear feature perturbation technique. It adapts the noise distribution to each sample applies decaying linear perturbations to feature vectors and further guides the classification process using a contrastive learning objective. Experimental evaluation conducted on both standard and geometric bias-free datasets demonstrates the superiority of our approach with respect to comparable baselines. The codebase is accessible via our public repository.

arxiv情報

著者 Romain Hermary,Vincent Gaudillière,Abd El Rahman Shabayek,Djamila Aouada
発行日 2025-03-07 15:42:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Removing Geometric Bias in One-Class Anomaly Detection with Adaptive Feature Perturbation はコメントを受け付けていません

MicroMIL: Graph-based Contextual Multiple Instance Learning for Patient Diagnosis Using Microscopy Images

要約

がんの診断は、全面的な画像(WSI)と複数のインスタンス学習(MIL)の統合から大きな恩恵を受けており、組織の形態の高解像度分析を可能にします。
グラフベースのMIL(GNN-MIL)アプローチは、WSIで空間構造と関係構造をキャプチャするための強力なソリューションとして浮上しており、それにより診断精度が向上しています。
ただし、有効性にもかかわらず、WSIは重要な計算およびインフラストラクチャリソースを必要とし、リソースに制約のある設定でのアクセシビリティが制限されます。
顕微鏡イメージングは​​費用対​​効果の高い代替手段を提供しますが、顕微鏡検査にGNN-MILを適用することは、空間座標がないことと病理学者が取得した画像の高い冗長性のために困難です。
これらの問題に対処するために、顕微鏡イメージング専用に設計された最初の弱い監視されたMILフレームワークであるマイクロミルを紹介します。
マイクロミルは、ディープクラスター埋め込み(DCE)とハードガンベルソフトマックスを使用して、冗長性を動的に減らし、代表的な画像を選択する代表的な画像抽出器(RIE)を活用します。
これらの選択された画像はグラフノードとして機能し、エッジはコサインの類似性によって決定され、関係構造を保存しながら空間座標の必要性を排除します。
現実世界の結腸癌データセットとBREAKHISデータセットに関する広範な実験は、マイクロミルが最先端のパフォーマンスを達成し、診断精度と冗長性の堅牢性の両方を改善することを示しています。
このコードは、https://anonymous.4open.science/r/micromil-6c7cで入手できます

要約(オリジナル)

Cancer diagnosis has greatly benefited from the integration of whole-slide images (WSIs) with multiple instance learning (MIL), enabling high-resolution analysis of tissue morphology. Graph-based MIL (GNN-MIL) approaches have emerged as powerful solutions for capturing spatial and relational structures in WSIs, thereby improving diagnostic accuracy. However, despite their effectiveness, WSIs require significant computational and infrastructural resources, limiting accessibility in resource-constrained settings. Microscopy imaging provides a cost-effective alternative, but applying GNN-MIL to microscopy imaging is challenging due to the absence of spatial coordinates and the high redundancy in pathologist-acquired images. To address these issues, we introduce MicroMIL, the first weakly-supervised MIL framework specifically designed for microscopy imaging. MicroMIL leverages a representative image extractor (RIE) that employs deep cluster embedding (DCE) and hard Gumbel-Softmax to dynamically reduce redundancy and select representative images. These selected images serve as graph nodes, with edges determined by cosine similarity, eliminating the need for spatial coordinates while preserving relational structure. Extensive experiments on a real-world colon cancer dataset and the BreakHis dataset demonstrate that MicroMIL achieves state-of-the-art performance, improving both diagnostic accuracy and robustness to redundancy. The code is available at https://anonymous.4open.science/r/MicroMIL-6C7C

arxiv情報

著者 JongWoo Kim,Bryan Wong,Huazhu Fu,Willmer Rafell Quiñones,MunYong Yi
発行日 2025-03-07 15:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MicroMIL: Graph-based Contextual Multiple Instance Learning for Patient Diagnosis Using Microscopy Images はコメントを受け付けていません

Post-Hoc Concept Disentanglement: From Correlated to Isolated Concept Representations

要約

概念アクティベーションベクトル(CAVS)は、神経ネットワークの潜在空間内の方向として人間に理解できる概念をモデル化するために広く使用されています。
それらは、概念サンプルのアクティベーションから非概念サンプルの方向への方向を識別することによって訓練されています。
ただし、この方法では、多くの場合、男性の画像に頻繁に共存するセレバデータセット内の「ひげ」や「ネクタイ」などの相関概念について、同様の非正所的方向を生成します。
このエンタングルメントは、概念の解釈を単独で複雑にし、アクティベーションステアリングなどのCAVアプリケーションで望ましくない効果につながる可能性があります。
この問題に対処するために、指示的正確性を維持しながら直交概念の方向の識別を促進し、非正義の損失を採用する事後概念の解体方法を紹介します。
Celebaの実世界および制御された相関概念と、VGG16およびResNet18アーキテクチャを備えた合成FunnyBirdsデータセットでアプローチを評価します。
さらに、アクティベーションステアリングタスクにおける直交化された概念表現の優位性を実証し、(1)生成モデルを介して孤立した概念を入力画像に挿入し、(2)ベースラインCavsと比較した相関概念への影響を減らすための効果的なショートカット抑制のための概念を除去できるようにします。

要約(オリジナル)

Concept Activation Vectors (CAVs) are widely used to model human-understandable concepts as directions within the latent space of neural networks. They are trained by identifying directions from the activations of concept samples to those of non-concept samples. However, this method often produces similar, non-orthogonal directions for correlated concepts, such as ‘beard’ and ‘necktie’ within the CelebA dataset, which frequently co-occur in images of men. This entanglement complicates the interpretation of concepts in isolation and can lead to undesired effects in CAV applications, such as activation steering. To address this issue, we introduce a post-hoc concept disentanglement method that employs a non-orthogonality loss, facilitating the identification of orthogonal concept directions while preserving directional correctness. We evaluate our approach with real-world and controlled correlated concepts in CelebA and a synthetic FunnyBirds dataset with VGG16 and ResNet18 architectures. We further demonstrate the superiority of orthogonalized concept representations in activation steering tasks, allowing (1) the insertion of isolated concepts into input images through generative models and (2) the removal of concepts for effective shortcut suppression with reduced impact on correlated concepts in comparison to baseline CAVs.

arxiv情報

著者 Eren Erogullari,Sebastian Lapuschkin,Wojciech Samek,Frederik Pahde
発行日 2025-03-07 15:45:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Post-Hoc Concept Disentanglement: From Correlated to Isolated Concept Representations はコメントを受け付けていません