Predicting Steady-State Behavior in Complex Networks with Graph Neural Networks

要約

複雑なシステムでは、情報伝播は、拡散または非局在化され、弱く局所化され、強く局在化されていると定義できます。
この研究では、グラフニューラルネットワークモデルの適用を調査して、ネットワーク上の線形動的システムの動作を学習します。
グラフの畳み込みと注意ベースのニューラルネットワークフレームワークが開発され、線形動的システムの定常状態の動作を特定しています。
訓練されたモデルがさまざまな状態を高い精度で区別していることを明らかにします。
さらに、実際のデータでモデルのパフォーマンスを評価しました。
さらに、モデルの説明可能性を理解するために、フレームワークの前方および後方の伝播の分析派生を提供します。

要約(オリジナル)

In complex systems, information propagation can be defined as diffused or delocalized, weakly localized, and strongly localized. This study investigates the application of graph neural network models to learn the behavior of a linear dynamical system on networks. A graph convolution and attention-based neural network framework has been developed to identify the steady-state behavior of the linear dynamical system. We reveal that our trained model distinguishes the different states with high accuracy. Furthermore, we have evaluated model performance with real-world data. In addition, to understand the explainability of our model, we provide an analytical derivation for the forward and backward propagation of our framework.

arxiv情報

著者 Priodyuti Pradhan,Amit Reza
発行日 2025-02-07 17:40:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, nlin.AO | Predicting Steady-State Behavior in Complex Networks with Graph Neural Networks はコメントを受け付けていません

Rejecting Hallucinated State Targets during Planning

要約

生成モデルは、エージェントが経験する可能性があるか有利であると判断する状態または観察に対応するターゲットを提案するために計画に使用できます。
ただし、エージェントは、モデルによって提案された幻覚、実行不可能なターゲットと闘い、妄想的な計画行動につながり、安全性の懸念を引き起こす可能性があります。
人間の脳からインスピレーションを得て、アドオンターゲット評価者でこれらの幻覚ターゲットを拒否することを提案します。
ただし、適切なトレーニングがなければ、評価者は妄想的な見積もりを生み出し、無駄にします。
学習ルール、アーキテクチャ、および2つの新しい後知覚相手戦略の組み合わせを介してこれに対処することを提案します。これは、実行不可能なターゲットの正しい評価につながります。
私たちの実験では、私たちのアプローチが妄想行動を大幅に減らし、計画エージェントのパフォーマンスを向上させることを確認しています。

要約(オリジナル)

Generative models can be used in planning to propose targets corresponding to states or observations that agents deem either likely or advantageous to experience. However, agents can struggle with hallucinated, infeasible targets proposed by the models, leading to delusional planning behaviors, which raises safety concerns. Drawing inspiration from the human brain, we propose to reject these hallucinated targets with an add-on target evaluator. Without proper training, however, the evaluator can produce delusional estimates, rendering it futile. We propose to address this via a combination of learning rule, architecture, and two novel hindsight relabeling strategies, which leads to correct evaluations of infeasible targets. Our experiments confirm that our approach significantly reduces delusional behaviors and enhances the performance of planning agents.

arxiv情報

著者 Mingde Zhao,Tristan Sylvain,Romain Laroche,Doina Precup,Yoshua Bengio
発行日 2025-02-07 18:10:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Rejecting Hallucinated State Targets during Planning はコメントを受け付けていません

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

要約

この作業は、モデルのユーティリティを維持しながら、不要なデータの影響(著作権または有害なコンテンツなど)を削除することを目的とした、大規模な言語モデル(LLM)の問題を調査しています。
学習に対する需要の増加にもかかわらず、技術的に接地された最適化フレームワークが不足しています。
グラジエントアセント(GA)タイプのメソッドは、広く使用されていますが、最適化の発散(つまり、事前に訓練された状態からの逸脱)を制御せずに学習プロセスを逆転させ、過剰忘却と潜在的なモデル崩壊のリスクにつながります。
ネガティブな選好最適化(NPO)がこの問題に対処するために提案されており、最先端のLLM学習アプローチの1つと考えられています。
この作業では、NPOを再検討し、別の重要な問題である参照モデルバイアスを特定します。
このバイアスは、NPOの有効性を損なう可能性のある未学習の成功を評価するために、参照モデル(つまり、学習前のモデル)を使用することから生じます。
具体的には、(a)さまざまな難易度レベルを備えた忘れたデータ間での最適化パワーの不均一な割り当て、および(b)学習の解除の初期段階での効果のない勾配重量の平滑化につながります。
これらの課題を克服するために、Simnpoと呼ばれるシンプルで効果的な非学習最適化フレームワークを提案し、参照モデル(単純な選好最適化のレンズを介して)に依存する「単純さ」を削除する際の「単純さ」を示しています。
マルコフチェーンの混合物に基づいた分析を通じて、Simnpoの利点に関するより深い洞察を提供します。
広範な実験では、豆腐やミューズなどのベンチマークでのSimnpoの有効性、および再学習攻撃に対する堅牢性をさらに検証します。
コードはhttps://github.com/optml-group/unlearn-simpleで入手できます。

要約(オリジナル)

This work studies the problem of large language model (LLM) unlearning, aiming to remove unwanted data influences (e.g., copyrighted or harmful content) while preserving model utility. Despite the increasing demand for unlearning, a technically-grounded optimization framework is lacking. Gradient ascent (GA)-type methods, though widely used, are suboptimal as they reverse the learning process without controlling optimization divergence (i.e., deviation from the pre-trained state), leading to risks of over-forgetting and potential model collapse. Negative preference optimization (NPO) has been proposed to address this issue and is considered one of the state-of-the-art LLM unlearning approaches. In this work, we revisit NPO and identify another critical issue: reference model bias. This bias arises from using the reference model (i.e., the model prior to unlearning) to evaluate the unlearning success, which can compromise NPO’s effectiveness. Specifically, it leads to (a) uneven allocation of optimization power across forget data with varying difficulty levels and (b) ineffective gradient weight smoothing during the early stages of unlearning optimization. To overcome these challenges, we propose a simple yet effective unlearning optimization framework, called SimNPO, showing that `simplicity’ in removing the reliance on a reference model (through the lens of simple preference optimization) benefits unlearning. We provide deeper insights into SimNPO’s advantages through an analysis based on mixtures of Markov chains. Extensive experiments further validate SimNPO’s efficacy on benchmarks like TOFU and MUSE, as well as its robustness against relearning attacks. Codes are available at https://github.com/OPTML-Group/Unlearn-Simple.

arxiv情報

著者 Chongyu Fan,Jiancheng Liu,Licong Lin,Jinghan Jia,Ruiqi Zhang,Song Mei,Sijia Liu
発行日 2025-02-07 18:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning はコメントを受け付けていません

Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling

要約

マスクされた拡散モデル(MDMS)は、他の離散拡散モデルよりも優れたパフォーマンスのおかげで、個別のデータの生成モデリングの一般的な研究トピックとして浮上しており、言語モデリングタスクの自動回帰モデル(ARMS)に匹敵しています。
マスクされた拡散フレームワークを簡素化する最近の取り組みは、連続空間拡散モデルとより原則的なトレーニングとサンプリングレシピとの整合にさらにつながります。
ただし、このホワイトペーパーでは、MDMのトレーニングとサンプリングの両方が理論的には時間変数、おそらく拡散モデルの重要な署名であり、代わりにマスクされたモデルと同等であることを明らかにします。
サンプリングの側面に関する接続は、提案された最初のヒットサンプラー(FHS)によって描画されます。
具体的には、FHSは理論的にはMDMSの元の生成プロセスと同等であると同時に、時間のかかるカテゴリサンプリングを大幅に緩和し、20 $ \ Times $ speedupを達成することを示します。
さらに、私たちの調査は、MDMがテキスト生成で本当に武器を打ち負かすことができるかどうかについて疑問を投げかけています。
一般的に使用される32ビットの浮動小数点精度でさえ、根本的な数値の問題を初めて特定し、それが不正確なカテゴリサンプリングをもたらします。
理論的および経験的に有効な温度を下げることを示し、結果として生成されるトークンの多様性の減少により、以前の評価が行われ、生成の品質が不完全な生成困惑メトリックのみを介して、やや不公平に評価されます。

要約(オリジナル)

Masked diffusion models (MDMs) have emerged as a popular research topic for generative modeling of discrete data, thanks to their superior performance over other discrete diffusion models, and are rivaling the auto-regressive models (ARMs) for language modeling tasks. The recent effort in simplifying the masked diffusion framework further leads to alignment with continuous-space diffusion models and more principled training and sampling recipes. In this paper, however, we reveal that both training and sampling of MDMs are theoretically free from the time variable, arguably the key signature of diffusion models, and are instead equivalent to masked models. The connection on the sampling aspect is drawn by our proposed first-hitting sampler (FHS). Specifically, we show that the FHS is theoretically equivalent to MDMs’ original generation process while significantly alleviating the time-consuming categorical sampling and achieving a 20$\times$ speedup. In addition, our investigation raises doubts about whether MDMs can truly beat ARMs in text generation. We identify, for the first time, an underlying numerical issue, even with the commonly used 32-bit floating-point precision, which results in inaccurate categorical sampling. We show that it lowers the effective temperature both theoretically and empirically, and the resulting decrease in token diversity makes previous evaluations, which assess the generation quality solely through the incomplete generative perplexity metric, somewhat unfair.

arxiv情報

著者 Kaiwen Zheng,Yongxin Chen,Hanzi Mao,Ming-Yu Liu,Jun Zhu,Qinsheng Zhang
発行日 2025-02-07 18:35:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling はコメントを受け付けていません

Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models

要約

テキストベースの基礎モデルは、分子基盤モデルが分子設計と材料科学の進歩を促進するため、科学的発見の重要な部分になりました。
ただし、既存のモデルは、分子空間のほんの一部のみをキャプチャする閉鎖トークンザーによって制約されています。
この作業では、スマイル分子表現言語のカバレッジについて、化学特有のもの19を含む30のトナイザーを体系的に評価し、重要なギャップを明らかにします。
トークン剤の選択の影響を評価するために、N-Gram言語モデルを低コストのプロキシとして導入し、分子特性予測のために18のRobertaスタイルのエンコーダーを微調整することにより、それらの有効性を検証します。
既存のトークンザーの制限を克服するために、OpenSmilesの仕様を完全にカバーして、2つの新しいトークンザー(ShirkとShirk-Gpe)を提案します。
私たちの結果は、化学情報学におけるオープンボキャブラリーモデリングと化学的に多様なベンチマークの必要性を強調しています。
提案されたトークンザーフレームワークは、核、電子、幾何学の自由度を体系的に統合します。
これにより、薬理学、農業、生物学、およびエネルギー貯蔵のアプリケーションが容易になります。

要約(オリジナル)

Text-based foundation models have become an important part of scientific discovery, with molecular foundation models accelerating advancements in molecular design and materials science. However, existing models are constrained by closed-vocabulary tokenizers which capture only a fraction of molecular space. In this work, we systematically evaluate thirty tokenizers, including 19 chemistry-specific ones, for their coverage of the SMILES molecular representation language, revealing significant gaps. To assess the impact of tokenizer choice, we introduce n-gram language models as a low-cost proxy and validate their effectiveness by training and fine-tuning 18 RoBERTa-style encoders for molecular property prediction. To overcome the limitations of existing tokenizers, we propose two new tokenizers — Smirk and Smirk-GPE — with full coverage of the OpenSMILES specification. Our results highlight the need for open-vocabulary modeling and chemically diverse benchmarks in cheminformatics. The proposed tokenizer framework systematically integrates nuclear, electronic, and geometric degrees of freedom; this facilitates applications in pharmacology, agriculture, biology, and energy storage.

arxiv情報

著者 Alexius Wadell,Anoushka Bhutani,Venkatasubramanian Viswanathan
発行日 2025-02-07 18:36:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.chem-ph, q-bio.BM | Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models はコメントを受け付けていません

Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient

要約

専門家(MOE)のアーキテクチャの混合は、大規模な機械学習モデルの研究と現実世界の応用の両方で計算効率を大幅に向上させています。
ただし、メモリの制約の下でのスケーラビリティと効率は比較的目立たないままです。
この作業では、アクティブなパラメーターの数、データセットサイズ、専門家の数などの重要な要因を組み込んだ、密集したMOEモデルとMOEモデルの共同スケーリング法則を提示します。
調査結果は、固定メモリと計算予算の下で最適なMOE構成を選択するための原則的なフレームワークを提供します。
驚くべきことに、MOEモデルは、従来の知恵と矛盾する密なモデルよりも記憶効率が高いことを示しています。
スケーリング法の理論的予測を導き出して検証するために、最大2.7Bのアクティブパラメーターと最大5Bの合計パラメーターで280以上の実験を実施します。
これらの結果は、実用的な大規模なトレーニングシナリオでMOEモデルを設計および展開するための実用的な洞察を提供します。

要約(オリジナル)

Mixture of Experts (MoE) architectures have significantly increased computational efficiency in both research and real-world applications of large-scale machine learning models. However, their scalability and efficiency under memory constraints remain relatively underexplored. In this work, we present joint scaling laws for dense and MoE models, incorporating key factors such as the number of active parameters, dataset size, and the number of experts. Our findings provide a principled framework for selecting the optimal MoE configuration under fixed memory and compute budgets. Surprisingly, we show that MoE models can be more memory-efficient than dense models, contradicting conventional wisdom. To derive and validate the theoretical predictions of our scaling laws, we conduct over 280 experiments with up to 2.7B active parameters and up to 5B total parameters. These results offer actionable insights for designing and deploying MoE models in practical large-scale training scenarios.

arxiv情報

著者 Jan Ludziejewski,Maciej Pióro,Jakub Krajewski,Maciej Stefaniak,Michał Krutul,Jan Małaśnicki,Marek Cygan,Piotr Sankowski,Kamil Adamczewski,Piotr Miłoś,Sebastian Jaszczur
発行日 2025-02-07 18:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient はコメントを受け付けていません

MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison

要約

最近の研究では、LLMエージェントは間接的な迅速なインジェクション(IPI)攻撃に対して脆弱であることが調査されています。これにより、ツール再取得情報に埋め込まれた悪意のあるタスクがエージェントをリダイレクトして不正アクションを実行できることが調査されています。
IPIに対する既存の防御には、大きな制限があります。本質的なモデルトレーニングリソースが必要であるか、洗練された攻撃に対する有効性が欠けているか、通常のユーティリティに害を及ぼします。
新しいIPI防御であるMelon(マスクされた再検討とツールの比較)を提示します。
私たちのアプローチは、攻撃の成功の下で、エージェントの次のアクションがユーザータスクに依存しなくなるなど、悪意のあるタスクに依存するという観察に基づいています。
これに続いて、マスキング機能を介して変更されたマスクされたユーザープロンプトを使用して、エージェントの軌跡を再実行することにより、攻撃を検出するためにメロンを設計します。
元の実行とマスクされた実行で生成されたアクションが類似している場合、攻撃を特定します。
また、潜在的な偽陽性と偽陰性を減らすための3つの重要な設計も含まれています。
IPIベンチマークエージェントドジョに関する広範な評価は、メロンが攻撃防止とユーティリティの保存の両方でソタ防御を上回ることを示しています。
さらに、メロンとSOTAプロンプト増強防御(メロン-8月と表される)を組み合わせることで、パフォーマンスがさらに向上することを示しています。
また、重要な設計を検証するために、詳細なアブレーション研究も実施しています。

要約(オリジナル)

Recent research has explored that LLM agents are vulnerable to indirect prompt injection (IPI) attacks, where malicious tasks embedded in tool-retrieved information can redirect the agent to take unauthorized actions. Existing defenses against IPI have significant limitations: either require essential model training resources, lack effectiveness against sophisticated attacks, or harm the normal utilities. We present MELON (Masked re-Execution and TooL comparisON), a novel IPI defense. Our approach builds on the observation that under a successful attack, the agent’s next action becomes less dependent on user tasks and more on malicious tasks. Following this, we design MELON to detect attacks by re-executing the agent’s trajectory with a masked user prompt modified through a masking function. We identify an attack if the actions generated in the original and masked executions are similar. We also include three key designs to reduce the potential false positives and false negatives. Extensive evaluation on the IPI benchmark AgentDojo demonstrates that MELON outperforms SOTA defenses in both attack prevention and utility preservation. Moreover, we show that combining MELON with a SOTA prompt augmentation defense (denoted as MELON-Aug) further improves its performance. We also conduct a detailed ablation study to validate our key designs.

arxiv情報

著者 Kaijie Zhu,Xianjun Yang,Jindong Wang,Wenbo Guo,William Yang Wang
発行日 2025-02-07 18:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison はコメントを受け付けていません

ARTInp: CBCT-to-CT Image Inpainting and Image Translation in Radiotherapy

要約

適応放射線療法(ART)ワークフローの重要なステップは、分娩の精度を確保するための治療時に患者の解剖学的構造を評価することです。
この目的のために、コーンビームコンピューター断層撮影(CBCT)は、費用対効果が高く、治療プロセスに統合しやすいことで広く使用されています。
それにもかかわらず、CBCT画像はCTスキャンよりも解像度が低く、アーティファクトが多く、正確な治療検証の信頼性が低下しています。
さらに、患者の全身視覚化が正確な用量送達に重要である総骨髄照射やリンパ節照射(TMLI)などの複雑な治療では、CBCT画像はしばしば不連続であり、関連する解剖学的情報を含むギャップを残します。
これらの制限に対処するために、Image IningintingとCBCT-to-CT翻訳を組み合わせた新しいディープラーニングフレームワークであるArtINP(適応放射線療法の開始)を提案します。
ARTINPは、デュアルネットワークアプローチを採用しています。CBCTボリュームの解剖学的ギャップを埋める完了ネットワークと、高品質の合成CT(SCT)画像を生成するためのカスタム生成敵意ネットワーク(GAN)を採用しています。
Synthrad 2023 ChallengeのペアCBCTおよびCT画像のデータセットでARTINPを訓練しました。18人の患者のテストセットで達成されたパフォーマンスは、放射線療法のCBCTベースのワークフローを強化する可能性を示しています。

要約(オリジナル)

A key step in Adaptive Radiation Therapy (ART) workflows is the evaluation of the patient’s anatomy at treatment time to ensure the accuracy of the delivery. To this end, Cone Beam Computerized Tomography (CBCT) is widely used being cost-effective and easy to integrate into the treatment process. Nonetheless, CBCT images have lower resolution and more artifacts than CT scans, making them less reliable for precise treatment validation. Moreover, in complex treatments such as Total Marrow and Lymph Node Irradiation (TMLI), where full-body visualization of the patient is critical for accurate dose delivery, the CBCT images are often discontinuous, leaving gaps that could contain relevant anatomical information. To address these limitations, we propose ARTInp (Adaptive Radiation Therapy Inpainting), a novel deep-learning framework combining image inpainting and CBCT-to-CT translation. ARTInp employs a dual-network approach: a completion network that fills anatomical gaps in CBCT volumes and a custom Generative Adversarial Network (GAN) to generate high-quality synthetic CT (sCT) images. We trained ARTInp on a dataset of paired CBCT and CT images from the SynthRad 2023 challenge, and the performance achieved on a test set of 18 patients demonstrates its potential for enhancing CBCT-based workflows in radiotherapy.

arxiv情報

著者 Ricardo Coimbra Brioso,Leonardo Crespi,Andrea Seghetto,Damiano Dei,Nicola Lambri,Pietro Mancosu,Marta Scorsetti,Daniele Loiacono
発行日 2025-02-07 13:04:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | ARTInp: CBCT-to-CT Image Inpainting and Image Translation in Radiotherapy はコメントを受け付けていません

A-VL: Adaptive Attention for Large Vision-Language Models

要約

大規模なビジョン言語モデル(LVLM)は、コンピュータービジョンと自然言語処理技術を統合し、実質的な応用の可能性を提供します。
ただし、これらのモデルは、推論中に広範なリソースを必要とします。
適応的な注意技術は、計算冗長性を動的に減らし、効率を向上させることができます。
現在の適応型注意方法は、トランスベースの言語モデルのメモリ要件を大幅に削減しますが、LVLMSに合わせて調整されていません。
LVLMSは、リモート画像トークンとローカルテキストトークンの両方から応答を生成し、異なるモダリティが異なる注意パターンを持っていることを観察します。
この観察は、各モダリティの注意を個別に管理するように促します。
具体的には、視覚入力のために、潜在的に有用な情報のキャッシュを保存しますが、最も重要な部分のみを計算します。
言語入力については、ローカル情報についてもっと関心を持っています。
視覚言語の注意パターンの観察と分析に基づいて、LVLM推論に合わせて調整されたプラグアンドプレイの適応的注意であるA-VLを開発します。
3つのビジョン言語タスクと5つのデータセットに関する広範な評価は、デザインの有効性を示しています。
私たちのアプローチA-VLは、パフォーマンスを損なうことなく、メモリの使用量と計算負荷を削減する際の既存の適応的注意方法を上回ります。

要約(オリジナル)

The Large Vision-Language Model (LVLM) integrates computer vision and natural language processing techniques, offering substantial application potential. However, these models demand extensive resources during inference. Adaptive attention techniques can dynamically reduce computational redundancy and thus improve efficiency. Although current adaptive attention methods significantly reduce the memory requirements of Transformer-based language models, they are not tailored for LVLMs. We observe that LVLMs generate responses from both remote image tokens and local text tokens, and different modalities have different attention patterns. This observation inspires us to manage the attention for each modality separately. Specifically, for visual input, we store the cache of potentially useful information but only compute the most critical parts. For language input, we care more about local information. Based on our observation and analysis of vision-language attention patterns, we develop A-VL, a plug-and-play adaptive attention tailored for LVLM inference. Extensive evaluations on three vision-language tasks and five datasets show the effectiveness of our designs. Our approach A-VL outperforms existing adaptive attention methods in reducing memory usage and computational load without compromising performance.

arxiv情報

著者 Junyang Zhang,Mu Yuan,Ruiguang Zhong,Puhan Luo,Huiyou Zhan,Ningkang Zhang,Chengchen Hu,Xiangyang Li
発行日 2025-02-07 13:09:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A-VL: Adaptive Attention for Large Vision-Language Models はコメントを受け付けていません

Multiple Instance Learning with Coarse-to-Fine Self-Distillation

要約

計算病理学のスライド画像全体の複数のインスタンス学習(MIL)分析は、監督が通常バッグレベルでのみ提供されるため、インスタンスレベルの学習を無視することがよくあります。
この作業では、2つの視点を通じてMILを改善するように設計されたフレームワークであるPathmilを提示します。(1)インスタンスレベルの監督を使用し、(2)バッグレベルに関する介入コンテキスト情報を学習します。
第一に、私たちは、バッグレベルの情報で訓練された分類器を調査および蒸留するために、同じ分類器の監督を効果的に提供するインスタンスレベルのラベルを取得するために、分類器を調査および蒸留するために、新しい粗から洗練された自己抵抗(CFSD)パラダイムを提案します。
方法。
第二に、WSIでインスタンス間コンテキスト情報をキャプチャするために、バッグ内のインスタンスの空間的外観をコードする2次元位置エンコーディング(2DPE)を提案します。
また、CFSDのインスタンスレベルの学習可能性を理論的および経験的に証明します。
Pathmilは、サブタイプ分類(TCGA-NSCLC)、腫瘍分類(Camelyon16)、乳がん受容体の状態分類のための内部ベンチマークなど、複数のベンチマークタスクで評価されます。
私たちの方法は、エストロゲンおよびプロゲステロン受容体の状態分類でそれぞれ0.9152および0.8524のAUCスコアで、サブタイプ分類で0.9618、腫瘍分類で0.8634が既存の方法を超えて0.8634で、最先端のパフォーマンスを達成します。

要約(オリジナル)

Multiple Instance Learning (MIL) for whole slide image (WSI) analysis in computational pathology often neglects instance-level learning as supervision is typically provided only at the bag level. In this work, we present PathMIL, a framework designed to improve MIL through two perspectives: (1) employing instance-level supervision and (2) learning inter-instance contextual information on bag level. Firstly, we propose a novel Coarse-to-Fine Self-Distillation (CFSD) paradigm, to probe and distil a classifier trained with bag-level information to obtain instance-level labels which could effectively provide the supervision for the same classifier in a finer way. Secondly, to capture inter-instance contextual information in WSI, we propose Two-Dimensional Positional Encoding (2DPE), which encodes the spatial appearance of instances within a bag. We also theoretically and empirically prove the instance-level learnability of CFSD. PathMIL is evaluated on multiple benchmarking tasks, including subtype classification (TCGA-NSCLC), tumour classification (CAMELYON16), and an internal benchmark for breast cancer receptor status classification. Our method achieves state-of-the-art performance, with AUC scores of 0.9152 and 0.8524 for estrogen and progesterone receptor status classification, respectively, an AUC of 0.9618 for subtype classification, and 0.8634 for tumour classification, surpassing existing methods.

arxiv情報

著者 Shuyang Wu,Yifu Qiu,Ines P. Nearchou,Sandrine Prost,Jonathan A. Fallowfield,Hakan Bilen,Timothy J. Kendall
発行日 2025-02-07 13:12:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multiple Instance Learning with Coarse-to-Fine Self-Distillation はコメントを受け付けていません