Bridge the Points: Graph-based Few-shot Segment Anything Semantically

要約

大規模な事前トレーニング技術の最近の進歩により、ビジョン基盤モデル、特にポイントおよびボックス プロンプトに基づいて正確なマスクを生成できるセグメント エニシング モデル (SAM) の機能が大幅に強化されました。
最近の研究では、SAM を少数ショット セマンティック セグメンテーション (FSS) に拡張し、SAM ベースの自動セマンティック セグメンテーションのプロンプト生成に焦点を当てています。
ただし、これらの方法では、適切なプロンプトを選択するのに苦労し、さまざまなシナリオに合わせて特定のハイパーパラメータ設定が必要であり、SAM の過剰使用によりワンショット推論時間が長くなり、効率が低く自動化機能が制限されます。
これらの問題に対処するために、グラフ分析に基づいたシンプルかつ効果的なアプローチを提案します。
特に、ポジティブ/ネガティブ アラインメント モジュールは、マスクを生成するためのポイント プロンプトを動的に選択し、特にネガティブ参照としての背景コンテキストの可能性を明らかにします。
後続の別のポイントマスク クラスタリング モジュールは、ポイント上のマスク カバレッジに基づいて、マスクと選択されたポイントの粒度を有向グラフとして調整します。
これらの点は、有向グラフの弱く接続されたコンポーネントを効率的な方法で分解することによって集約され、別個の自然なクラスターを構築します。
最後に、グラフベースの粒度調整の利点を活かしたポジティブ ゲートとオーバーシュート ゲーティングは、信頼性の高いマスクを集約し、最終予測のために偽陽性マスクをフィルタリングして除外し、追加のハイパーパラメータの使用と冗長なマスク生成を削減します。
標準 FSS、ワンショット パーツ セグメンテーション、およびクロスドメイン FSS データセットにわたる広範な実験分析により、提案されたアプローチの有効性と効率性が検証され、COCO-20i および 35.2 の mIoU が 58.7% という最先端のジェネラリスト モデルを上回っています。
LVIS-92i では %。
コードは https://andyzaq.github.io/GF-SAM/ で入手できます。

要約(オリジナル)

The recent advancements in large-scale pre-training techniques have significantly enhanced the capabilities of vision foundation models, notably the Segment Anything Model (SAM), which can generate precise masks based on point and box prompts. Recent studies extend SAM to Few-shot Semantic Segmentation (FSS), focusing on prompt generation for SAM-based automatic semantic segmentation. However, these methods struggle with selecting suitable prompts, require specific hyperparameter settings for different scenarios, and experience prolonged one-shot inference times due to the overuse of SAM, resulting in low efficiency and limited automation ability. To address these issues, we propose a simple yet effective approach based on graph analysis. In particular, a Positive-Negative Alignment module dynamically selects the point prompts for generating masks, especially uncovering the potential of the background context as the negative reference. Another subsequent Point-Mask Clustering module aligns the granularity of masks and selected points as a directed graph, based on mask coverage over points. These points are then aggregated by decomposing the weakly connected components of the directed graph in an efficient manner, constructing distinct natural clusters. Finally, the positive and overshooting gating, benefiting from graph-based granularity alignment, aggregate high-confident masks and filter out the false-positive masks for final prediction, reducing the usage of additional hyperparameters and redundant mask generation. Extensive experimental analysis across standard FSS, One-shot Part Segmentation, and Cross Domain FSS datasets validate the effectiveness and efficiency of the proposed approach, surpassing state-of-the-art generalist models with a mIoU of 58.7% on COCO-20i and 35.2% on LVIS-92i. The code is available in https://andyzaq.github.io/GF-SAM/.

arxiv情報

著者 Anqi Zhang,Guangyu Gao,Jianbo Jiao,Chi Harold Liu,Yunchao Wei
発行日 2024-10-09 15:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

要約

ビジョン言語モデル (VLM) では、ビジュアル トークンは、テキスト トークンと比較して情報密度がまばらであるにもかかわらず、通常、大量の計算オーバーヘッドを消費します。
これに対処するために、既存の手法のほとんどはネットワークを学習して冗長なビジュアル トークンを取り除き、追加のトレーニング データを必要とします。
これとは異なり、追加のパラメータや微調整コストを必要としない、SparseVLM と呼ばれる効率的なトレーニング不要のトークン最適化メカニズムを提案します。
具体的には、視覚的トークンが言語的推論のために VLM 内のテキスト トークンを補完することを考慮して、視覚関連のテキスト トークンを選択して、VLM から抽出された自己注意マトリックス内で視覚トークンの重要性を評価します。
次に、無関係なトークンを段階的に削除します。
重要な情報を保持しながらスパース性を最大化するために、プルーニングされたトークンをよりコンパクトな表現に圧縮するトークン リサイクル手法と並行して、各レイヤーのスパース化率を適応的に決定するランクベースの戦略を導入します。
実験結果は、SparseVLM がさまざまな画像およびビデオ理解タスクにわたってさまざまな VLM の効率を向上させることを示しています。
特に、SparseVLM を搭載した LLaVA は、93% の精度を維持しながら、78% の圧縮率で FLOP を 61% ~ 67% 削減します。
私たちのコードは https://github.com/Gumpest/SparseVLMs で入手できます。

要約(オリジナル)

In vision-language models (VLMs), visual tokens usually consume a significant amount of computational overhead, despite their sparser information density compared to text tokens. To address this, most existing methods learn a network to prune redundant visual tokens and require additional training data. Differently, we propose an efficient training-free token optimization mechanism dubbed SparseVLM without extra parameters or fine-tuning costs. Concretely, given that visual tokens complement text tokens in VLMs for linguistic reasoning, we select visual-relevant text tokens to rate the significance of vision tokens within the self-attention matrix extracted from the VLMs. Then we progressively prune irrelevant tokens. To maximize sparsity while retaining essential information, we introduce a rank-based strategy to adaptively determine the sparsification ratio for each layer, alongside a token recycling method that compresses pruned tokens into more compact representations. Experimental results show that our SparseVLM improves the efficiency of various VLMs across a range of image and video understanding tasks. In particular, LLaVA equipped with SparseVLM reduces 61% to 67% FLOPs with a compression ratio of 78% while maintaining 93% of the accuracy. Our code is available at https://github.com/Gumpest/SparseVLMs.

arxiv情報

著者 Yuan Zhang,Chun-Kai Fan,Junpeng Ma,Wenzhao Zheng,Tao Huang,Kuan Cheng,Denis Gudovskiy,Tomoyuki Okuno,Yohei Nakata,Kurt Keutzer,Shanghang Zhang
発行日 2024-10-09 15:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

The BRAVO Semantic Segmentation Challenge Results in UNCV2024

要約

私たちは、現実的な摂動や未知の配信外 (OOD) シナリオの下でセマンティック セグメンテーション モデルの信頼性をベンチマークするための統一 BRAVO チャレンジを提案します。
信頼性の 2 つのカテゴリを定義します。(1) 意味論的な信頼性。これは、さまざまな摂動にさらされたときのモデルの精度と校正を反映します。
(2) OOD の信頼性。トレーニング中に不明なオブジェクト クラスを検出するモデルの能力を測定します。
この課題には、著名な研究機関を代表する国際チームから 100 近い応募が集まりました。
この結果は、堅牢で信頼性の高いセマンティック セグメンテーション モデルの開発における大規模な事前トレーニングと最小限のアーキテクチャ設計の重要性について興味深い洞察を明らかにしました。

要約(オリジナル)

We propose the unified BRAVO challenge to benchmark the reliability of semantic segmentation models under realistic perturbations and unknown out-of-distribution (OOD) scenarios. We define two categories of reliability: (1) semantic reliability, which reflects the model’s accuracy and calibration when exposed to various perturbations; and (2) OOD reliability, which measures the model’s ability to detect object classes that are unknown during training. The challenge attracted nearly 100 submissions from international teams representing notable research institutions. The results reveal interesting insights into the importance of large-scale pre-training and minimal architectural design in developing robust and reliable semantic segmentation models.

arxiv情報

著者 Tuan-Hung Vu,Eduardo Valle,Andrei Bursuc,Tommie Kerssies,Daan de Geus,Gijs Dubbelman,Long Qian,Bingke Zhu,Yingying Chen,Ming Tang,Jinqiao Wang,Tomáš Vojíř,Jan Šochman,Jiří Matas,Michael Smith,Frank Ferrie,Shamik Basu,Christos Sakaridis,Luc Van Gool
発行日 2024-10-09 15:09:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Diagnosis of Malignant Lymphoma Cancer Using Hybrid Optimized Techniques Based on Dense Neural Networks

要約

リンパ腫の診断、特にサブタイプを区別することは効果的な治療に不可欠ですが、病理組織画像の形態学的に微妙な違いがあるため依然として困難です。
この研究では、特徴抽出のための DenseNet201 と、Harris Hawks Optimization (HHO) アルゴリズムを使用して最適化された分類のための Dense Neural Network (DNN) を組み合わせた、新しいハイブリッド ディープ ラーニング フレームワークを紹介します。
このモデルは、慢性リンパ性白血病 (CLL)、濾胞性リンパ腫 (FL)、およびマントル細胞リンパ腫 (MCL) の 3 つのリンパ腫サブタイプにわたる 15,000 枚の生検画像のデータセットでトレーニングされました。
私たちのアプローチは 99.33\% のテスト精度を達成し、精度とモデルの解釈可能性の両方が大幅に向上したことを実証しました。
精度、再現率、F1 スコア、ROC-AUC を使用した包括的な評価により、モデルの堅牢性と臨床採用の可能性が強調されます。
このフレームワークは、腫瘍学の診断精度と効率を向上させるためのスケーラブルなソリューションを提供します。

要約(オリジナル)

Lymphoma diagnosis, particularly distinguishing between subtypes, is critical for effective treatment but remains challenging due to the subtle morphological differences in histopathological images. This study presents a novel hybrid deep learning framework that combines DenseNet201 for feature extraction with a Dense Neural Network (DNN) for classification, optimized using the Harris Hawks Optimization (HHO) algorithm. The model was trained on a dataset of 15,000 biopsy images, spanning three lymphoma subtypes: Chronic Lymphocytic Leukemia (CLL), Follicular Lymphoma (FL), and Mantle Cell Lymphoma (MCL). Our approach achieved a testing accuracy of 99.33\%, demonstrating significant improvements in both accuracy and model interpretability. Comprehensive evaluation using precision, recall, F1-score, and ROC-AUC underscores the model’s robustness and potential for clinical adoption. This framework offers a scalable solution for improving diagnostic accuracy and efficiency in oncology.

arxiv情報

著者 Salah A. Aly,Ali Bakhiet,Mazen Balat
発行日 2024-10-09 15:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Adaptive High-Frequency Transformer for Diverse Wildlife Re-Identification

要約

Wildlife ReID には、視覚テクノロジーを利用してさまざまなシナリオで野生動物の特定の個体を識別することが含まれており、野生動物の保護、生態学的研究、環境モニタリングにとって重要な意味を持っています。
既存の野生生物の ReID 手法は、主に特定の種に合わせて調整されており、適用性が限られています。
一部のアプローチは広範囲に研究された人物 ReID 技術を活用していますが、野生動物によってもたらされる特有の課題に対処するのに苦労しています。
したがって、この論文では、野生生物 ReID のための統一された複数種の一般的なフレームワークを提示します。
高周波情報はさまざまな種の固有の特徴を一貫して表現しており、輪郭や毛皮の質感などの詳細を識別するのに大きく役立つことを考慮して、高周波情報の学習を強化することを目的とした適応高周波トランスフォーマーモデルを提案します。
荒野環境における避けられない高周波干渉を軽減するために、より貴重な高周波成分を適応的に捕捉するオブジェクト認識高周波選択戦略を導入します。
特に、ReID 用に複数の野生動物データセットの実験設定を統合し、最先端の ReID 手法を上回る優れたパフォーマンスを実現しています。
ドメイン一般化シナリオでは、私たちのアプローチは未知の種に対する堅牢な一般化を実証します。

要約(オリジナル)

Wildlife ReID involves utilizing visual technology to identify specific individuals of wild animals in different scenarios, holding significant importance for wildlife conservation, ecological research, and environmental monitoring. Existing wildlife ReID methods are predominantly tailored to specific species, exhibiting limited applicability. Although some approaches leverage extensively studied person ReID techniques, they struggle to address the unique challenges posed by wildlife. Therefore, in this paper, we present a unified, multi-species general framework for wildlife ReID. Given that high-frequency information is a consistent representation of unique features in various species, significantly aiding in identifying contours and details such as fur textures, we propose the Adaptive High-Frequency Transformer model with the goal of enhancing high-frequency information learning. To mitigate the inevitable high-frequency interference in the wilderness environment, we introduce an object-aware high-frequency selection strategy to adaptively capture more valuable high-frequency components. Notably, we unify the experimental settings of multiple wildlife datasets for ReID, achieving superior performance over state-of-the-art ReID methods. In domain generalization scenarios, our approach demonstrates robust generalization to unknown species.

arxiv情報

著者 Chenyue Li,Shuoyi Chen,Mang Ye
発行日 2024-10-09 15:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Structure-Centric Robust Monocular Depth Estimation via Knowledge Distillation

要約

自己教師あり学習によって可能になる単眼の奥行き推定は、コンピューター ビジョンにおける 3D 認識の重要な技術です。
ただし、悪天候の変化、モーション ブラー、夜間の照明条件が悪いシーンなど、現実のシナリオでは大きな課題に直面しています。
私たちの研究では、単眼奥行き推定を 3 つのサブ問題、つまり奥行き構造の一貫性、局所テクスチャの曖昧さの排除、および意味構造の相関に分割できることが明らかになりました。
私たちのアプローチは、構造中心の視点を採用し、セマンティクスと照明によって実証されるシーン構造の特性を利用することにより、干渉テクスチャに対する既存の自己教師付き単眼奥行き推定モデルの非ロバスト性に取り組みます。
私たちは、ローカル テクスチャへの過度の依存を減らし、パターンの欠落や干渉に対する堅牢性を高める新しいアプローチを考案しました。
さらに、セマンティックエキスパートモデルを教師として組み込み、学習可能な同型グラフを介してモデル間の特徴依存関係を構築して、セマンティック構造知識の集約を可能にします。
私たちのアプローチは、さまざまな公共の不利なシナリオのデータセットにわたって、最先端の分布外単眼深度推定パフォーマンスを実現します。
大規模なモデル エンジニアリングを必要とせずに、顕著なスケーラビリティと互換性を示します。
これは、さまざまな産業用途向けにモデルをカスタマイズできる可能性を示しています。

要約(オリジナル)

Monocular depth estimation, enabled by self-supervised learning, is a key technique for 3D perception in computer vision. However, it faces significant challenges in real-world scenarios, which encompass adverse weather variations, motion blur, as well as scenes with poor lighting conditions at night. Our research reveals that we can divide monocular depth estimation into three sub-problems: depth structure consistency, local texture disambiguation, and semantic-structural correlation. Our approach tackles the non-robustness of existing self-supervised monocular depth estimation models to interference textures by adopting a structure-centered perspective and utilizing the scene structure characteristics demonstrated by semantics and illumination. We devise a novel approach to reduce over-reliance on local textures, enhancing robustness against missing or interfering patterns. Additionally, we incorporate a semantic expert model as the teacher and construct inter-model feature dependencies via learnable isomorphic graphs to enable aggregation of semantic structural knowledge. Our approach achieves state-of-the-art out-of-distribution monocular depth estimation performance across a range of public adverse scenario datasets. It demonstrates notable scalability and compatibility, without necessitating extensive model engineering. This showcases the potential for customizing models for diverse industrial applications.

arxiv情報

著者 Runze Chen,Haiyong Luo,Fang Zhao,Jingze Yu,Yupeng Jia,Juan Wang,Xuepeng Ma
発行日 2024-10-09 15:20:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Jointly Generating Multi-view Consistent PBR Textures using Collaborative Control

要約

マルチビューの一貫性は、画像拡散モデルにとって依然として課題です。
完全な幾何学的対応が先験的に知られているテキスト対テクスチャ問題の中でも、多くの方法ではビュー全体で位置合わせされた予測が得られず、結果を元のメッシュに組み込むために自明ではない融合方法が必要になります。
特に PBR テキストからテクスチャへの協調制御ワークフローについてこの問題を調査します。
Collaborative Control は、法線バンプ マップを含む PBR 画像の確率分布を直接モデル化します。
私たちの知る限り、完全な PBR スタックを直接出力する唯一の拡散モデルです。
このモデルをマルチビューで一貫性のあるものにするために必要な設計上の決定について説明し、アブレーション研究および実際のアプリケーションにおけるアプローチの有効性を実証します。

要約(オリジナル)

Multi-view consistency remains a challenge for image diffusion models. Even within the Text-to-Texture problem, where perfect geometric correspondences are known a priori, many methods fail to yield aligned predictions across views, necessitating non-trivial fusion methods to incorporate the results onto the original mesh. We explore this issue for a Collaborative Control workflow specifically in PBR Text-to-Texture. Collaborative Control directly models PBR image probability distributions, including normal bump maps; to our knowledge, the only diffusion model to directly output full PBR stacks. We discuss the design decisions involved in making this model multi-view consistent, and demonstrate the effectiveness of our approach in ablation studies, as well as practical applications.

arxiv情報

著者 Shimon Vainer,Konstantin Kutsy,Dante De Nigris,Ciara Rowles,Slava Elizarov,Simon Donné
発行日 2024-10-09 15:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | コメントする

A Unified Generative Framework for Realistic Lidar Simulation in Autonomous Driving Systems

要約

知覚センサーのシミュレーション モデルは、自動運転システム (ADS) の仮想検証および検証 (V\&V) に使用される自動車シミュレーターの不可欠なコンポーネントです。
これらのモデルは、深層学習ベースの知覚モデルをトレーニングするための合成データセットを生成するための強力なツールとしても機能します。
Lidar は、3D 環境スキャンの精度が高いため、ADS の知覚センサーの中で広く使用されているセンサー タイプです。
ただし、現実的な LiDAR シミュレーション モデルを開発することは、技術的に大きな課題です。
特に、非現実的なモデルでは、合成された点群と現実世界の点群の間に大きなギャップが生じ、ADS アプリケーションでの有効性が制限される可能性があります。
最近、現実的な感覚データを合成するための有望なソリューションとして、深層生成モデルが登場しています。
ただし、Lidar シミュレーションの場合、ディープ生成モデルは主に従来のアルゴリズムとハイブリッド化されており、統合された生成アプローチは文献でほとんど調査されていません。
この研究ギャップを動機として、私たちは Lidar シミュレーションの忠実度を高めるための統一された生成フレームワークを提案します。
私たちが提案するフレームワークは、可逆変換を介して Lidar 点群を深度反射画像に投影し、新しい制御可能な Lidar 点群生成モデル CoLiGen を使用して画像を変換します。
私たちは CoLiGen モデルを徹底的に評価し、さまざまな指標を使用して最先端の画像間変換モデルと比較し、下流の知覚モデルの現実性、忠実性、パフォーマンスを評価します。
私たちの結果は、CoLiGen がほとんどの指標において優れたパフォーマンスを示すことを示しています。
この研究のデータセットとソース コードは、https://github.com/hamedhaghighi/CoLiGen.git で入手できます。

要約(オリジナル)

Simulation models for perception sensors are integral components of automotive simulators used for the virtual Verification and Validation (V\&V) of Autonomous Driving Systems (ADS). These models also serve as powerful tools for generating synthetic datasets to train deep learning-based perception models. Lidar is a widely used sensor type among the perception sensors for ADS due to its high precision in 3D environment scanning. However, developing realistic Lidar simulation models is a significant technical challenge. In particular, unrealistic models can result in a large gap between the synthesised and real-world point clouds, limiting their effectiveness in ADS applications. Recently, deep generative models have emerged as promising solutions to synthesise realistic sensory data. However, for Lidar simulation, deep generative models have been primarily hybridised with conventional algorithms, leaving unified generative approaches largely unexplored in the literature. Motivated by this research gap, we propose a unified generative framework to enhance Lidar simulation fidelity. Our proposed framework projects Lidar point clouds into depth-reflectance images via a lossless transformation, and employs our novel Controllable Lidar point cloud Generative model, CoLiGen, to translate the images. We extensively evaluate our CoLiGen model, comparing it with the state-of-the-art image-to-image translation models using various metrics to assess the realness, faithfulness, and performance of a downstream perception model. Our results show that CoLiGen exhibits superior performance across most metrics. The dataset and source code for this research are available at https://github.com/hamedhaghighi/CoLiGen.git.

arxiv情報

著者 Hamed Haghighi,Mehrdad Dianati,Valentina Donzella,Kurt Debattista
発行日 2024-10-09 15:26:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, eess.IV | コメントする

A Diffusion-based Xray2MRI Model: Generating Pseudo-MRI Volumes From one Single X-ray

要約

変形性膝関節症 (KOA) は一般的な筋骨格系疾患であり、その診断には費用対効果の高い X 線がよく使用されます。
一方、磁気共鳴画像法 (MRI) は詳細な軟組織の視覚化を提供し、KOA の貴重な補助診断ツールとなっています。
残念ながら、MRI はコストが高く、アクセスしやすさが限られているため、その普及が妨げられており、多くの KOA 患者は X 線画像のみに依存しています。
この研究では、1 枚の X 線画像から疑似 MRI ボリュームを生成できる新しい拡散ベースの Xray2MRI モデルを紹介します。
X 線を条件付き入力として使用することに加えて、私たちのモデルはターゲット深さ、KOA 確率分布、および画像強度分布モジュールを統合して合成プロセスをガイドし、生成された対応するスライスが解剖学的構造に正確に対応することを保証します。
実験結果は、X 線からの情報を追加の入力データと統合することにより、提案されたアプローチが実際の MRI スキャンに近似する擬似 MRI シーケンスを生成できることを示しています。
さらに、推論時間を増やすことにより、モデルは効果的な補間を実現し、生成された MRI シーケンスの連続性と滑らかさをさらに向上させ、費用対効果の高い医療画像ソリューションの有望な初期の試みの 1 つを示しています。

要約(オリジナル)

Knee osteoarthritis (KOA) is a prevalent musculoskeletal disorder, and X-rays are commonly used for its diagnosis due to their cost-effectiveness. Magnetic Resonance Imaging (MRI), on the other hand, offers detailed soft tissue visualization and has become a valuable supplementary diagnostic tool for KOA. Unfortunately, the high cost and limited accessibility of MRI hinder its widespread use, leaving many patients with KOA reliant solely on X-ray imaging. In this study, we introduce a novel diffusion-based Xray2MRI model capable of generating pseudo-MRI volumes from one single X-ray image. In addition to using X-rays as conditional input, our model integrates target depth, KOA probability distribution, and image intensity distribution modules to guide the synthesis process, ensuring that the generated corresponding slices accurately correspond to the anatomical structures. Experimental results demonstrate that by integrating information from X-rays with additional input data, our proposed approach is capable of generating pseudo-MRI sequences that approximate real MRI scans. Moreover, by increasing the inference times, the model achieves effective interpolation, further improving the continuity and smoothness of the generated MRI sequences, representing one promising initial attempt for cost-effective medical imaging solutions.

arxiv情報

著者 Zhe Wang,Rachid Jennane,Aladine Chetouani,Mohamed Jarraya
発行日 2024-10-09 15:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする

Can Your Generative Model Detect Out-of-Distribution Covariate Shift?

要約

分布外 (OOD) の感覚データと共変量分布のシフトの検出は、キャプチャされたセット、正常なセット、および分布内 (ID) セットとは異なる高レベルの画像統計を含む新しいテスト サンプルを特定することを目的としています。
既存の OOD 検出文献は主に意味シフトに焦点を当てており、共変量シフトに関するコンセンサスはほとんどありません。
生成モデルは教師なしの方法で ID データをキャプチャし、下流のタスクに関係なく、この学習された分布から大きく逸脱するサンプルを効果的に識別できるようにします。
この研究では、さまざまなモデルを含む広範な分析を通じて、ドメイン固有の共変量シフトを検出および定量化する生成モデルの能力を解明します。
この目的を達成するには、高周波信号に依存する詳細と独立した詳細をモデル化するだけで、発生するほとんどの感覚障害 (全体的な信号統計の異常と逸脱) を検出するだけで十分であると推測します。
我々は、OOD 検出のための新しい方法 CovariateFlow を提案します。これは、特に条件付き正規化フロー (cNF) を使用して不均一分散の高周波画像コンポーネントを共変量するように調整されています。
CIFAR10 対 CIFAR10-C および ImageNet200 対 ImageNet200-C の結果は、OOD 共変量シフトを正確に検出することによるこの方法の有効性を示しています。
この研究は、イメージング システムの忠実度を向上させ、共変量シフトが存在する場合の OOD 検出における機械学習モデルの支援に貢献します。

要約(オリジナル)

Detecting Out-of-Distribution (OOD) sensory data and covariate distribution shift aims to identify new test examples with different high-level image statistics to the captured, normal and In-Distribution (ID) set. Existing OOD detection literature largely focuses on semantic shift with little-to-no consensus over covariate shift. Generative models capture the ID data in an unsupervised manner, enabling them to effectively identify samples that deviate significantly from this learned distribution, irrespective of the downstream task. In this work, we elucidate the ability of generative models to detect and quantify domain-specific covariate shift through extensive analyses that involves a variety of models. To this end, we conjecture that it is sufficient to detect most occurring sensory faults (anomalies and deviations in global signals statistics) by solely modeling high-frequency signal-dependent and independent details. We propose a novel method, CovariateFlow, for OOD detection, specifically tailored to covariate heteroscedastic high-frequency image-components using conditional Normalizing Flows (cNFs). Our results on CIFAR10 vs. CIFAR10-C and ImageNet200 vs. ImageNet200-C demonstrate the effectiveness of the method by accurately detecting OOD covariate shift. This work contributes to enhancing the fidelity of imaging systems and aiding machine learning models in OOD detection in the presence of covariate shift.

arxiv情報

著者 Christiaan Viviers,Amaan Valiuddin,Francisco Caetano,Lemar Abdi,Lena Filatova,Peter de With,Fons van der Sommen
発行日 2024-10-09 15:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする