Joint Depth and Reflectivity Estimation using Single-Photon LiDAR

要約

単一光子光の検出と範囲(SPライダーは、長距離、高精度の3D視力タスクの主要な技術として浮上しています。SPライダーでは、タイムスタンプは2つの補完的な情報をエンコードします。
従来の3Dヒストグラム構造は、主に動的なシーンで効果的ですが、このペーパーでは、タイムスタンプを直接処理する方が効率的です。
(2)共有情報を悪用して、合成および実際のSPライダーデータの両方で、既存のアプローチを上回り、優れたジョイント再構成の品質を達成する新しい再構成方法「Splider」。

要約(オリジナル)

Single-Photon Light Detection and Ranging (SP-LiDAR is emerging as a leading technology for long-range, high-precision 3D vision tasks. In SP-LiDAR, timestamps encode two complementary pieces of information: pulse travel time (depth) and the number of photons reflected by the object (reflectivity). Existing SP-LiDAR reconstruction methods typically recover depth and reflectivity separately or sequentially use one modality to estimate the other. Moreover, the conventional 3D histogram construction is effective mainly for slow-moving or stationary scenes. In dynamic scenes, however, it is more efficient and effective to directly process the timestamps. In this paper, we introduce an estimation method to simultaneously recover both depth and reflectivity in fast-moving scenes. We offer two contributions: (1) A theoretical analysis demonstrating the mutual correlation between depth and reflectivity and the conditions under which joint estimation becomes beneficial. (2) A novel reconstruction method, ‘SPLiDER’, which exploits the shared information to enhance signal recovery. On both synthetic and real SP-LiDAR data, our method outperforms existing approaches, achieving superior joint reconstruction quality.

arxiv情報

著者 Hashan K. Weerasooriya,Prateek Chennuri,Weijian Zhang,Istvan Gyongy,Stanley H. Chan
発行日 2025-05-19 15:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Joint Depth and Reflectivity Estimation using Single-Photon LiDAR はコメントを受け付けていません

Anomaly Anything: Promptable Unseen Visual Anomaly Generation

要約

視覚異常検出(AD)は、異常なデータサンプルの希少性のために重要な課題を提示します。
異常なサンプルを合成するために多数の作品が提案されていますが、これらの合成異常は、多くの場合、信頼性を欠いているか、広範なトレーニングデータを必要とし、現実世界のシナリオでの適用性を制限します。
この作業では、さまざまな拡散(SD)の画像生成能力を活用して、多様で現実的な目に見えない異常を生成する新しいフレームワークであるAnomaly Anything(Anomalyany)を提案します。
テスト時間中に単一の正常なサンプルを条件付けることにより、アノマリアニーは、テキストの説明を使用して任意のオブジェクトタイプの目に見えない異常を生成することができます。
アノマリアニー内では、注意誘導異常の最適化を提案して、硬い異常の概念を生成することにSDの注意を向けることを提案します。
さらに、生成品質をさらに向上させるために詳細な説明を組み込んだ迅速なガイド付き異常洗練を紹介します。
MVTEC ADおよびVisaデータセットでの広範な実験は、高品質の目に見えない異常とダウンストリーム広告パフォーマンスの向上におけるその有効性を生成する際の異常の能力を示しています。

要約(オリジナル)

Visual anomaly detection (AD) presents significant challenges due to the scarcity of anomalous data samples. While numerous works have been proposed to synthesize anomalous samples, these synthetic anomalies often lack authenticity or require extensive training data, limiting their applicability in real-world scenarios. In this work, we propose Anomaly Anything (AnomalyAny), a novel framework that leverages Stable Diffusion (SD)’s image generation capabilities to generate diverse and realistic unseen anomalies. By conditioning on a single normal sample during test time, AnomalyAny is able to generate unseen anomalies for arbitrary object types with text descriptions. Within AnomalyAny, we propose attention-guided anomaly optimization to direct SD attention on generating hard anomaly concepts. Additionally, we introduce prompt-guided anomaly refinement, incorporating detailed descriptions to further improve the generation quality. Extensive experiments on MVTec AD and VisA datasets demonstrate AnomalyAny’s ability in generating high-quality unseen anomalies and its effectiveness in enhancing downstream AD performance.

arxiv情報

著者 Han Sun,Yunkang Cao,Hao Dong,Olga Fink
発行日 2025-05-19 15:41:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Anomaly Anything: Promptable Unseen Visual Anomaly Generation はコメントを受け付けていません

Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning

要約

この作業では、問題の困難の事前情報を明示的にモデル化することで、マルチモーダル推論のための補強学習に基づく微調整の有効性をどのように形成するかを調査します。
私たちの探索は主に次の3つの視点で構成されています。まず、オフラインデータキュレーションを通じて、マルチラウンドサンプリングによりベースモデルを使用して2つのデータセットのU字型難易度分布を分析し、意味のあるグラデーションを提供するのが非常に困難なプロンプトを除外し、その後の2段階トレーニングを実行します。
第二に、私たちは、適応的に再び利点の推定を行うための難易度のプロキシとして、オンラインアドバンテージの差別化、グループごとの経験的精度を実装し、より困難な問題のためにより強力な学習信号を提供します。
最後に、2番目のトレーニング段階でより複雑なサンプルの明示的なプロンプトとして難易度のヒントを導入し、モデルが推論の深さを調整し、反射的検証チェックを実行することを奨励します。
当社の包括的なアプローチは、2k+0.6kの2段階トレーニングデータのみのさまざまなマルチモーダル数学的推論ベンチマークで重要なパフォーマンスを示しています。

要約(オリジナル)

In this work, we investigate how explicitly modeling problem’s difficulty prior information shapes the effectiveness of reinforcement learning based fine-tuning for multimodal reasoning. Our exploration mainly comprises of following three perspective: First, through offline data curation, we analyze the U-shaped difficulty distribution of two given datasets using the base model by multi-round sampling, and then filter out prompts that are either too simple or extremely difficult to provide meaningful gradients and perform subsequent two-stage training. Second, we implement an online advantage differentiation, computing group-wise empirical accuracy as a difficulty proxy to adaptively reweight advantages estimation, providing stronger learning signals for more challenging problems. Finally, we introduce difficulty hints as explicit prompts for more complex samples in the second training stage, encouraging the model to calibrate its reasoning depth and perform reflective validation checks. Our comprehensive approach demonstrates significant performances across various multi-modal mathematical reasoning benchmarks with only 2K+0.6K two-stage training data.

arxiv情報

著者 Mingrui Chen,Haogeng Liu,Hao Liang,Huaibo Huang,Wentao Zhang,Ran He
発行日 2025-05-19 15:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning はコメントを受け付けていません

DB3D-L: Depth-aware BEV Feature Transformation for Accurate 3D Lane Detection

要約

3Dレーン検出は、自律運転において重要な役割を果たします。
最近の進歩は、主にフロントビュー(FV)画像から鳥の目(BEV)機能を構築し、レーンの3D情報をより効果的に知覚します。
ただし、FV画像からの正確なBEV情報の構築は、深さ情報が不足しているために制限されており、以前の作業は、平らな地上面の仮定に大きく依存していることがよくあります。
BEV機能の構築を支援するために単眼深度推定を活用することはあまり制約されていませんが、既存の方法は2つのタスクを効果的に統合するのに苦労しています。
上記の問題に対処するために、この論文では、深度認識BEV機能のトランストルメーションに基づく正確な3Dレーン検出方法が提案されています。
詳細には、効果的な特徴抽出モジュールが設計されており、深さネットが統合され、3D認識のための重要な深さ情報を取得し、ビュー変換の複雑さを簡素化します。
サブケアでは、FV機能と深さの機能の高さの寸法を減らすために、機能を低下させるモジュールが提案されているため、重要なFV機能と深度機能の効果的な融合が可能になります。
次に、FusionモジュールがプライムFV機能と深度情報からBEV機能を構築するように設計されています。
提案された方法は、合成アポロの現実的なオープンレーンデータセットの両方で最先端の方法と同等に機能します。

要約(オリジナル)

3D Lane detection plays an important role in autonomous driving. Recent advances primarily build Birds-Eye-View (BEV) feature from front-view (FV) images to perceive 3D information of Lane more effectively. However, constructing accurate BEV information from FV image is limited due to the lacking of depth information, causing previous works often rely heavily on the assumption of a flat ground plane. Leveraging monocular depth estimation to assist in constructing BEV features is less constrained, but existing methods struggle to effectively integrate the two tasks. To address the above issue, in this paper, an accurate 3D lane detection method based on depth-aware BEV feature transtormation is proposed. In detail, an effective feature extraction module is designed, in which a Depth Net is integrated to obtain the vital depth information for 3D perception, thereby simplifying the complexity of view transformation. Subquently a feature reduce module is proposed to reduce height dimension of FV features and depth features, thereby enables effective fusion of crucial FV features and depth features. Then a fusion module is designed to build BEV feature from prime FV feature and depth information. The proposed method performs comparably with state-of-the-art methods on both synthetic Apollo, realistic OpenLane datasets.

arxiv情報

著者 Yehao Liu,Xiaosu Xu,Zijian Wang,Yiqing Yao
発行日 2025-05-19 15:47:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DB3D-L: Depth-aware BEV Feature Transformation for Accurate 3D Lane Detection はコメントを受け付けていません

Quantifying Context Bias in Domain Adaptation for Object Detection

要約

オブジェクト検出のためのドメイン適応(DAOD)は、訓練されたモデルをソースからターゲットドメインに転送しようとしています。
さまざまなDAODメソッドが存在し、その一部は、さまざまなドメインの前景バックグラウンド関連の間のコンテキストバイアスを最小限に抑えることを目的としています。
ただし、適応中のバックグラウンド機能の変化と、コンテキストバイアスが異なるドメインでどのように表現されるかを分析することにより、DAODのコンテキストバイアスを研究していません。
私たちの研究実験は、DAODのコンテキストバイアスの潜在的な使いやすさを強調しています。
2つの異なる訓練されたモデルの異なる層、Detectron2とYolov11の異なる層にわたってさまざまな活性化値を変化させ、両方とも検出の数と質に影響を与える背景をマスキングすることにより、問題に対処します。
CarlaとVirtual Kittiの2つの合成データセットと、実際のオープンソースデータの2つの異なるバージョン、CityscapesとKittiセマンティックを、コンテキストバイアスを表現および定量化する別のドメインとして使用します。
最大平均不一致(MMD)や最大分散不一致(MVD)などのさまざまなメトリックを利用して、別々のドメインの操作された背景領域を与えられた前景の層固有の条件付き確率推定値を見つけます。
さらに、さまざまなデータセットの組み合わせにわたる前景帯域群の関連付けを分析します。
最先端のドメイン適応方法は、何らかの形のコンテキストバイアスを示し、潜在的に簡単な方法を適用して、コンテキストバイアスを緩和するための潜在的に簡単な方法を適用して、精度の向上を達成します(Cityscapesの51.207マップとCityScapesの検証の64.233マップの霧の検証の51.89から53.646マップ)。
詳細な分析を通じて、コンテキストバイアスの理解がDAODアプローチに影響し、前景機能の整合のみに焦点を当てることが効果的なDAODには不十分であることを実証します。

要約(オリジナル)

Domain adaptation for object detection (DAOD) seeks to transfer a trained model from a source to a target domain. Various DAOD methods exist, some of which aim to minimize context bias between foreground-background associations in various domains. However, no prior work has studied context bias in DAOD by analyzing changes in background features during adaptation and how context bias is represented in different domains. Our research experiment highlights the potential usability of context bias in DAOD. We address the problem by varying activation values over different layers of two different trained models, Detectron2 and YOLOv11, and by masking the background, both of which impact the number and quality of detections. We use two synthetic datasets, CARLA and Virtual KITTI, and two different versions of real open-source data, Cityscapes and KITTI semantic, as separate domains to represent and quantify context bias. We utilize different metrics such as Maximum Mean Discrepancy (MMD) and Maximum Variance Discrepancy (MVD) to find the layer-specific conditional probability estimates of foreground given manipulated background regions for separate domains. We further analyze foreground-background associations across various dataset combinations. We find that state-of-the-art domain adaptation methods exhibit some form of context bias and apply a potentially simple way to alleviate the context bias achieving improved accuracy (from 51.189 to 53.646 mAP on Cityscapes foggy validation with 63.207 mAP and 64.233 mAP on Cityscapes validation respectively). We demonstrate through detailed analysis that understanding of the context bias can affect DAOD approach and focusing solely on aligning foreground features is insufficient for effective DAOD.

arxiv情報

著者 Hojun Son,Asma Almutairi,Arpan Kusari
発行日 2025-05-19 15:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Quantifying Context Bias in Domain Adaptation for Object Detection はコメントを受け付けていません

Event-Driven Dynamic Scene Depth Completion

要約

ダイナミックシーンの深さの完了は、RGB画像やLIDAR測定などの入力モダリティの品質を大幅に低下させることができる、急速なエゴモーションとオブジェクトの動きのために大きな課題をもたらします。
従来のRGB-Dセンサーは、しばしば正確に整列し、そのような条件下で信頼できる深さをキャプチャするのに苦労しています。
対照的に、ピクセルレベルでの運動に対する高い時間分解能と感度を持つイベントカメラは、動的環境で特に有益な補完的なキューを提供します。この目的に、最初のイベント駆動型深度完了フレームワークであるEventDCを提案します。
イベント調整アライメント(EMA)とローカル深度フィルタリング(LDF)の2つの重要なコンポーネントで構成されています。
両方のモジュールは、畳み込み操作の2つの基本的なコンポーネントを適応的に学習します。オフセットと動きに敏感なイベントストリームに条件付けられています。
エンコーダでは、EMAはイベントを活用してRGB-D機能のサンプリング位置を変調して、アライメントと融合を改善するためのピクセル再分布を実現します。
デコーダーでは、LDFは、イベントからモーション認識マスクを学習することにより、移動するオブジェクトを中心に深さの推定を改善します。
さらに、EventDCには2つの損失条件が組み込まれて、グローバルなアライメントにさらに利益をもたらし、ローカル深度回復を強化します。
さらに、将来の研究を促進するために、1つの現実世界と2つの合成データセットを含むイベントベースの深度完了の最初のベンチマークを確立します。
このベンチマークでの広範な実験は、私たちのEventDCの優位性を示しています。

要約(オリジナル)

Depth completion in dynamic scenes poses significant challenges due to rapid ego-motion and object motion, which can severely degrade the quality of input modalities such as RGB images and LiDAR measurements. Conventional RGB-D sensors often struggle to align precisely and capture reliable depth under such conditions. In contrast, event cameras with their high temporal resolution and sensitivity to motion at the pixel level provide complementary cues that are %particularly beneficial in dynamic environments.To this end, we propose EventDC, the first event-driven depth completion framework. It consists of two key components: Event-Modulated Alignment (EMA) and Local Depth Filtering (LDF). Both modules adaptively learn the two fundamental components of convolution operations: offsets and weights conditioned on motion-sensitive event streams. In the encoder, EMA leverages events to modulate the sampling positions of RGB-D features to achieve pixel redistribution for improved alignment and fusion. In the decoder, LDF refines depth estimations around moving objects by learning motion-aware masks from events. Additionally, EventDC incorporates two loss terms to further benefit global alignment and enhance local depth recovery. Moreover, we establish the first benchmark for event-based depth completion comprising one real-world and two synthetic datasets to facilitate future research. Extensive experiments on this benchmark demonstrate the superiority of our EventDC.

arxiv情報

著者 Zhiqiang Yan,Jianhao Jiao,Zhengxue Wang,Gim Hee Lee
発行日 2025-05-19 16:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Event-Driven Dynamic Scene Depth Completion はコメントを受け付けていません

Computer Vision Models Show Human-Like Sensitivity to Geometric and Topological Concepts

要約

機械学習(ML)モデルの急速な改善により、認知科学者は人間の考え方との整合性についてますます求めています。
ここでは、コンピュータービジョンモデルと幾何学的およびトポロジー(GT)の概念に対する人間の感受性についてこの質問をします。
コアナレッジアカウントの下で、これらの概念は生来のものであり、専用の神経回路によってサポートされています。
この作業では、環境との日常的な相互作用を通じてGTの概念が「無料で」学習されることを別の説明を調査します。
大規模な画像データセットでトレーニングされているコンピュータービジョンモデルを使用しています。
7つのクラスに及ぶ43 GTの概念をテストする奇数1タスクテストで、畳み込みニューラルネットワーク(CNNS)、変圧器ベースのモデル、ビジョン言語モデルの3つのクラスのモデルの全体的なパフォーマンスとヒューマンアライメントを調査するための以前の研究に基づいて構築されています。
変圧器ベースのモデルは、幼い子供の精度を上回り、全体的な精度を最も高くしています。
また、子どもたちのパフォーマンスと強い整合性を示し、同じクラスの概念を簡単に困難にします。
対照的に、ビジョン言語モデルはビジョンのみのカウンターパートをパフォーマンスしており、人間のプロファイルをさらに逸脱し、na \ ‘iveマルチモダリティが抽象的な幾何学的感度を損なう可能性があることを示しています。
これらの調査結果は、GTの概念に対する人間の感受性を説明するための学習アカウントの十分性を評価するためのコンピュータービジョンモデルの使用をサポートし、言語的表現と視覚的表現を統合することは予測されていない有害な結果をもたらす可能性があることを示唆しています。

要約(オリジナル)

With the rapid improvement of machine learning (ML) models, cognitive scientists are increasingly asking about their alignment with how humans think. Here, we ask this question for computer vision models and human sensitivity to geometric and topological (GT) concepts. Under the core knowledge account, these concepts are innate and supported by dedicated neural circuitry. In this work, we investigate an alternative explanation, that GT concepts are learned “for free” through everyday interaction with the environment. We do so using computer visions models, which are trained on large image datasets. We build on prior studies to investigate the overall performance and human alignment of three classes of models — convolutional neural networks (CNNs), transformer-based models, and vision-language models — on an odd-one-out task testing 43 GT concepts spanning seven classes. Transformer-based models achieve the highest overall accuracy, surpassing that of young children. They also show strong alignment with children’s performance, finding the same classes of concepts easy vs. difficult. By contrast, vision-language models underperform their vision-only counterparts and deviate further from human profiles, indicating that na\’ive multimodality might compromise abstract geometric sensitivity. These findings support the use of computer vision models to evaluate the sufficiency of the learning account for explaining human sensitivity to GT concepts, while also suggesting that integrating linguistic and visual representations might have unpredicted deleterious consequences.

arxiv情報

著者 Zekun Wang,Sashank Varma
発行日 2025-05-19 16:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Computer Vision Models Show Human-Like Sensitivity to Geometric and Topological Concepts はコメントを受け付けていません

RECON: Robust symmetry discovery via Explicit Canonical Orientation Normalization

要約

実際のデータは、多くの場合、未知の対称性または近似の対称性を示しますが、既存の等量ネットワークは、トレーニング前に固定変換グループにコミットする必要があります。
このミスマッチは、実際のデータ対称性が変換グループのデータとは異なる場合、パフォーマンスを低下させます。
reconを紹介します。これは、各入力の固有の対称分布を非標識データから発見するフレームワークです。
Reconはクラスポーズ分解を活用し、データ駆動型の正規化を適用して、任意の参照フレームを共通の自然ポーズに整列させ、直接同等の解釈可能な対称性記述子を生成します。
2D画像ベンチマークで効果的な対称性発見を示し、初めては3D変換グループに拡張し、より柔軟な等量モデリングへの道を開きます。

要約(オリジナル)

Real-world data often exhibits unknown or approximate symmetries, yet existing equivariant networks must commit to a fixed transformation group prior to training, e.g., continuous $SO(2)$ rotations. This mismatch degrades performance when the actual data symmetries differ from those in the transformation group. We introduce RECON, a framework to discover each input’s intrinsic symmetry distribution from unlabeled data. RECON leverages class-pose decompositions and applies a data-driven normalization to align arbitrary reference frames into a common natural pose, yielding directly comparable and interpretable symmetry descriptors. We demonstrate effective symmetry discovery on 2D image benchmarks and — for the first time — extend it to 3D transformation groups, paving the way towards more flexible equivariant modeling.

arxiv情報

著者 Alonso Urbano,David W. Romero,Max Zimmer,Sebastian Pokutta
発行日 2025-05-19 16:10:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | RECON: Robust symmetry discovery via Explicit Canonical Orientation Normalization はコメントを受け付けていません

DD-Ranking: Rethinking the Evaluation of Dataset Distillation

要約

近年、データセットの蒸留により、データ圧縮の信頼できるソリューションが提供されています。このソリューションでは、結果としてトレーニングされたより小さな合成データセットでトレーニングされたモデルは、元のデータセットでトレーニングされたものに匹敵するパフォーマンスを実現します。
合成データセットのパフォーマンスをさらに向上させるために、さまざまなトレーニングパイプラインと最適化目標が提案されており、データセットの蒸留の分野を大きく進めています。
最近分離されたデータセット蒸留方法により、大規模なデータセットまでの評価段階およびスケールデータセットの蒸留中にソフトラベルとより強力なデータ増強が導入されます(例:Imagenet-1K)。
ただし、これは疑問を提起します。データセット蒸留方法を公正に評価するための精度は依然として信頼できるメトリックですか?
私たちの経験的調査結果は、これらの方法のパフォーマンスの改善が、画像自体の固有の品質ではなく、追加の技術に由来することが多く、ランダムにサンプリングされた画像でさえ優れた結果を達成することを示唆しています。
このような不整合された評価設定は、DDの開発を厳しく妨げます。
したがって、統一された評価フレームワークであるDDランクと、さまざまな方法で達成された真のパフォーマンスの改善を明らかにするための新しい一般的な評価メトリックを提案します。
蒸留データセットの実際の情報強化に再び焦点を合わせることにより、DD-Rankkingは、将来の研究の進歩に対して、より包括的で公正な評価基準を提供します。

要約(オリジナル)

In recent years, dataset distillation has provided a reliable solution for data compression, where models trained on the resulting smaller synthetic datasets achieve performance comparable to those trained on the original datasets. To further improve the performance of synthetic datasets, various training pipelines and optimization objectives have been proposed, greatly advancing the field of dataset distillation. Recent decoupled dataset distillation methods introduce soft labels and stronger data augmentation during the post-evaluation phase and scale dataset distillation up to larger datasets (e.g., ImageNet-1K). However, this raises a question: Is accuracy still a reliable metric to fairly evaluate dataset distillation methods? Our empirical findings suggest that the performance improvements of these methods often stem from additional techniques rather than the inherent quality of the images themselves, with even randomly sampled images achieving superior results. Such misaligned evaluation settings severely hinder the development of DD. Therefore, we propose DD-Ranking, a unified evaluation framework, along with new general evaluation metrics to uncover the true performance improvements achieved by different methods. By refocusing on the actual information enhancement of distilled datasets, DD-Ranking provides a more comprehensive and fair evaluation standard for future research advancements.

arxiv情報

著者 Zekai Li,Xinhao Zhong,Samir Khaki,Zhiyuan Liang,Yuhao Zhou,Mingjia Shi,Ziqiao Wang,Xuanlei Zhao,Wangbo Zhao,Ziheng Qin,Mengxuan Wu,Pengfei Zhou,Haonan Wang,David Junhao Zhang,Jia-Wei Liu,Shaobo Wang,Dai Liu,Linfeng Zhang,Guang Li,Kun Wang,Zheng Zhu,Zhiheng Ma,Joey Tianyi Zhou,Jiancheng Lv,Yaochu Jin,Peihao Wang,Kaipeng Zhang,Lingjuan Lyu,Yiran Huang,Zeynep Akata,Zhiwei Deng,Xindi Wu,George Cazenavette,Yuzhang Shang,Justin Cui,Jindong Gu,Qian Zheng,Hao Ye,Shuo Wang,Xiaobo Wang,Yan Yan,Angela Yao,Mike Zheng Shou,Tianlong Chen,Hakan Bilen,Baharan Mirzasoleiman,Manolis Kellis,Konstantinos N. Plataniotis,Zhangyang Wang,Bo Zhao,Yang You,Kai Wang
発行日 2025-05-19 16:19:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DD-Ranking: Rethinking the Evaluation of Dataset Distillation はコメントを受け付けていません

LadderMIL: Multiple Instance Learning with Coarse-to-Fine Self-Distillation

要約

計算病理学のスライド画像全体の複数のインスタンス学習(MIL)分析は、監督が通常バッグレベルでのみ提供されるため、インスタンスレベルの学習を無視することがよくあります。
この作業では、2つの視点を通じてMILを改善するために設計されたフレームワークであるLaddermilを提示します。(1)インスタンスレベルの監督を使用し、(2)バッグレベルでのインタースト間コンテキスト情報を学習します。
第一に、バッグレベルの情報でトレーニングされたネットワークをプローブおよび蒸留するために、同じネットワークのインスタンスレベルの監督を自己改善方法で効果的に提供できるインスタンスレベルのラベルを適応的に取得する新しい粗から洗練された自己抵抗(CFSD)パラダイムを提案します。
第二に、WSIでインスタンス間コンテキスト情報をキャプチャするために、バッグ内のインスタンスのコンテキスト外観をコードするコンテキストエコードジェネレーター(CEG)を提案します。
また、CFSDのインスタンスレベルの学習可能性を理論的および経験的に証明します。
私たちのはしごは、乳がん受容体の状態分類、マルチクラスのサブタイプ分類、腫瘍分類、予後予測など、複数の臨床的に関連するベンチマークタスクで評価されます。
AUC、F1スコア、およびCインデックスの8.1%、11%、2.4%の平均改善は、それぞれ最高のベースラインと比較して5つのベンチマーク全体で実証されています。

要約(オリジナル)

Multiple Instance Learning (MIL) for whole slide image (WSI) analysis in computational pathology often neglects instance-level learning as supervision is typically provided only at the bag level. In this work, we present LadderMIL, a framework designed to improve MIL through two perspectives: (1) employing instance-level supervision and (2) learning inter-instance contextual information at bag level. Firstly, we propose a novel Coarse-to-Fine Self-Distillation (CFSD) paradigm that probes and distils a network trained with bag-level information to adaptively obtain instance-level labels which could effectively provide the instance-level supervision for the same network in a self-improving way. Secondly, to capture inter-instance contextual information in WSI, we propose a Contextual Ecoding Generator (CEG), which encodes the contextual appearance of instances within a bag. We also theoretically and empirically prove the instance-level learnability of CFSD. Our LadderMIL is evaluated on multiple clinically relevant benchmarking tasks including breast cancer receptor status classification, multi-class subtype classification, tumour classification, and prognosis prediction. Average improvements of 8.1%, 11% and 2.4% in AUC, F1-score, and C-index, respectively, are demonstrated across the five benchmarks, compared to the best baseline.

arxiv情報

著者 Shuyang Wu,Yifu Qiu,Ines P. Nearchou,Sandrine Prost,Jonathan A. Fallowfield,David J. Harrison,Hakan Bilen,Timothy J. Kendall
発行日 2025-05-19 16:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LadderMIL: Multiple Instance Learning with Coarse-to-Fine Self-Distillation はコメントを受け付けていません