Parameter Symmetry Potentially Unifies Deep Learning Theory

要約

現代の大規模なAIシステムにおける学習のダイナミクスは階層的であり、多くの場合、物理システムで観察される相転移に似た突然の定性的シフトによって特徴付けられます。
これらの現象は、ニューラルネットワークと言語モデルの背後にあるメカニズムを明らかにするための約束を保持していますが、既存の理論は断片化されたままで、特定のケースに対処します。
このポジションペーパーでは、これらの断片化された理論を統合する際のパラメーター対称性の研究方向の重要な役割を提唱します。
この位置は、この方向の集中仮説に基づいています。パラメーター対称性の破壊と回復は、AIモデルの階層学習行動の根底にある統一メカニズムです。
私たちは、この研究の方向性が、神経ネットワークの3つの異なる階層の統一された理解につながる可能性があると主張するために、以前の観察と理論を統合します:学習ダイナミクス、モデルの複雑さ、表現形成の学習。
これらの階層を接続することにより、私たちのポジションペーパーは、理論物理学の礎である対称性を高め、現代AIの潜在的な基本原則になります。

要約(オリジナル)

The dynamics of learning in modern large AI systems is hierarchical, often characterized by abrupt, qualitative shifts akin to phase transitions observed in physical systems. While these phenomena hold promise for uncovering the mechanisms behind neural networks and language models, existing theories remain fragmented, addressing specific cases. In this position paper, we advocate for the crucial role of the research direction of parameter symmetries in unifying these fragmented theories. This position is founded on a centralizing hypothesis for this direction: parameter symmetry breaking and restoration are the unifying mechanisms underlying the hierarchical learning behavior of AI models. We synthesize prior observations and theories to argue that this direction of research could lead to a unified understanding of three distinct hierarchies in neural networks: learning dynamics, model complexity, and representation formation. By connecting these hierarchies, our position paper elevates symmetry — a cornerstone of theoretical physics — to become a potential fundamental principle in modern AI.

arxiv情報

著者 Liu Ziyin,Yizhou Xu,Tomaso Poggio,Isaac Chuang
発行日 2025-05-23 17:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.AI, cs.LG, stat.ML | Parameter Symmetry Potentially Unifies Deep Learning Theory はコメントを受け付けていません

ProgRM: Build Better GUI Agents with Progress Rewards

要約

LLMベースの(大手言語モデル)GUI(グラフィカルユーザーインターフェイス)エージェントは、私たちの日常生活を大幅に変える可能性があります。
ただし、現在のLLMベースのGUIエージェントは、軌跡の収集と報酬注釈が困難なため、高品質のトレーニングデータの希少性に苦しんでいます。
既存の作品は、模倣学習のための軌跡を収集したり、オンラインRLトレーニングに報酬信号を提供するためにLLMを調査しています。
ただし、既存の作業で使用される結果報酬モデル(ORM)は、細かいフィードバックを提供することができず、最終的に失敗した軌跡の貴重なステップを過剰にペナ化することができます。
この目的のために、オンライントレーニングの各ステップのタスク完了の進行状況を予測することにより、進行状況報酬モデル(Progrm)を提案します。
Progress Reward Label Annotationの課題を処理するために、さらに効率的なLCSベースの(最も長い共通サブシーケンス)自己発言アルゴリズムを設計して、軌跡の重要な手順を発見し、それに応じて進行状況ラベルを割り当てます。
Progrmは、広範な実験と分析で評価されます。
Progrmで訓練された俳優は、Progrmの有効性を示す、主要な独自のLLMSとORM訓練を受けた俳優よりも優れています。
実験のコードは、受け入れたときに公開されます。

要約(オリジナル)

LLM-based (Large Language Model) GUI (Graphical User Interface) agents can potentially reshape our daily lives significantly. However, current LLM-based GUI agents suffer from the scarcity of high-quality training data owing to the difficulties of trajectory collection and reward annotation. Existing works have been exploring LLMs to collect trajectories for imitation learning or to offer reward signals for online RL training. However, the Outcome Reward Model (ORM) used in existing works cannot provide finegrained feedback and can over-penalize the valuable steps in finally failed trajectories. To this end, we propose Progress Reward Model (ProgRM) to provide dense informative intermediate rewards by predicting a task completion progress for each step in online training. To handle the challenge of progress reward label annotation, we further design an efficient LCS-based (Longest Common Subsequence) self-annotation algorithm to discover the key steps in trajectories and assign progress labels accordingly. ProgRM is evaluated with extensive experiments and analyses. Actors trained with ProgRM outperform leading proprietary LLMs and ORM-trained actors, illustrating the effectiveness of ProgRM. The codes for experiments will be made publicly available upon acceptance.

arxiv情報

著者 Danyang Zhang,Situo Zhang,Ziyue Yang,Zichen Zhu,Zihan Zhao,Ruisheng Cao,Lu Chen,Kai Yu
発行日 2025-05-23 17:23:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | ProgRM: Build Better GUI Agents with Progress Rewards はコメントを受け付けていません

Reward Model Overoptimisation in Iterated RLHF

要約

人間のフィードバック(RLHF)からの強化学習は、大規模な言語モデルを人間の好みに合わせて広く使用されています。
ただし、RLHFはしばしば報酬モデルの過剰最適化に苦しんでおり、モデルは報酬機能に過剰に促進され、その結果、報酬関数の特異性と特異性を活用する一般化できないポリシーが生じます。
一般的な緩和はRLHFで繰り返され、報酬モデルは、更新された人間のフィードバックとポリシーが再最適化されて繰り返し再訓練されます。
採用が増加しているにもかかわらず、この設定での過剰な最適化のダイナミクスはよく理解されていません。
この作業では、反復RLHFにおける過剰最適化の最初の包括的な研究を提示します。
主要な設計の選択肢を体系的に分析します – 報酬モデルトレーニングデータが反復全体で転送される方法、報酬機能は最適化に使用され、ポリシーがどのように初期化されますか。
制御されたAlpacafarmベンチマークを使用して、報酬モデルがますます近似地面の好みがますます近づいているため、過剰な最適化は連続した反復を減少させる傾向があることがわかります。
ただし、パフォーマンスの向上は時間の経過とともに減少し、基本ポリシーからの再認証は堅牢ですが、最適化の柔軟性を制限します。
他の初期化戦略は、多くの場合、早期過剰な最適化から回復できません。
これらの調査結果は、より安定した一般化可能なRLHFパイプラインを構築するための実用的な洞察を提供します。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) is a widely used method for aligning large language models with human preferences. However, RLHF often suffers from reward model overoptimisation, in which models overfit to the reward function, resulting in non-generalisable policies that exploit the idiosyncrasies and peculiarities of the reward function. A common mitigation is iterated RLHF, in which reward models are repeatedly retrained with updated human feedback and policies are re-optimised. Despite its increasing adoption, the dynamics of overoptimisation in this setting remain poorly understood. In this work, we present the first comprehensive study of overoptimisation in iterated RLHF. We systematically analyse key design choices – how reward model training data is transferred across iterations, which reward function is used for optimisation, and how policies are initialised. Using the controlled AlpacaFarm benchmark, we observe that overoptimisation tends to decrease over successive iterations, as reward models increasingly approximate ground-truth preferences. However, performance gains diminish over time, and while reinitialising from the base policy is robust, it limits optimisation flexibility. Other initialisation strategies often fail to recover from early overoptimisation. These findings offer actionable insights for building more stable and generalisable RLHF pipelines.

arxiv情報

著者 Lorenz Wolf,Robert Kirk,Mirco Musolesi
発行日 2025-05-23 17:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Reward Model Overoptimisation in Iterated RLHF はコメントを受け付けていません

Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review

要約

ピアレビューは、公開された科学研究の完全性を確保するための重要なプロセスです。
このプロセスに対する信頼は、関連するドメインの専門家が、出版のために提出された原稿のメリットを慎重に検討するという仮定に基づいています。
最近の大規模な言語モデル(LLMS)の急速な進歩により、ピアレビュープロセスの新しいリスクは、過失のレビュアーがLLMSに依存して、紙をレビューすることがよくあるプロセスを実行することです。
ただし、ピアレビューのドメイン内のAIテキストの検出可能性をベンチマークするための既存のリソースが不足しています。
この不足に対処するために、合計788,984のAI執筆ピアレビューを含む包括的なデータセットを導入し、対応する人間のレビューとペアになり、2つの主要なAI研究会議(ICLRとニューリップ)のそれぞれに提出された8年間の論文をカバーします。
この新しいリソースを使用して、18の既存のAIテキスト検出アルゴリズムの能力を評価して、人間によって完全に書かれたピアレビューとさまざまな最先端のLLMを区別します。
さらに、Anchorと呼ばれるコンテキスト認識検出方法を調査します。これは、原稿コンテンツを活用してAIに生成されたレビューを検出し、Humanが作成したテキストのLLM支援編集に対する検出モデルの感度を分析します。
私たちの研究は、個々のピアレビューレベルでAIに生成されたテキストを特定することの難しさを明らかにし、この生成AIのこの非倫理的使用を検出するための新しいツールと方法の緊急の必要性を強調しています。
データセットは、https://huggingface.co/datasets/intellabs/ai-review-setection-benchmarkで公開されています。

要約(オリジナル)

Peer review is a critical process for ensuring the integrity of published scientific research. Confidence in this process is predicated on the assumption that experts in the relevant domain give careful consideration to the merits of manuscripts which are submitted for publication. With the recent rapid advancements in large language models (LLMs), a new risk to the peer review process is that negligent reviewers will rely on LLMs to perform the often time consuming process of reviewing a paper. However, there is a lack of existing resources for benchmarking the detectability of AI text in the domain of peer review. To address this deficiency, we introduce a comprehensive dataset containing a total of 788,984 AI-written peer reviews paired with corresponding human reviews, covering 8 years of papers submitted to each of two leading AI research conferences (ICLR and NeurIPS). We use this new resource to evaluate the ability of 18 existing AI text detection algorithms to distinguish between peer reviews fully written by humans and different state-of-the-art LLMs. Additionally, we explore a context-aware detection method called Anchor, which leverages manuscript content to detect AI-generated reviews, and analyze the sensitivity of detection models to LLM-assisted editing of human-written text. Our work reveals the difficulty of identifying AI-generated text at the individual peer review level, highlighting the urgent need for new tools and methods to detect this unethical use of generative AI. Our dataset is publicly available at: https://huggingface.co/datasets/IntelLabs/AI-Peer-Review-Detection-Benchmark.

arxiv情報

著者 Sungduk Yu,Man Luo,Avinash Madusu,Vasudev Lal,Phillip Howard
発行日 2025-05-23 17:37:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review はコメントを受け付けていません

Leveraging KANs for Expedient Training of Multichannel MLPs via Preconditioning and Geometric Refinement

要約

多層パーセプロン(MLP)は、さまざまな現代の深い学習フレームワークで使用される主力機械学習アーキテクチャです。
しかし、最近、Kolmogorov-Arnold Networks(KANS)は、特に科学的機械学習タスクでさまざまな問題で成功したため、ますます人気が高まっています。
この論文では、KANSとマルチチャネルMLPの関係を活用して、MLPをより速く訓練する方法に関する構造的な洞察を得ます。
Kanベース(1)は幾何学的なローカライズされたサポートを提供し、(2)は、leluベースで前処理された降下として機能し、全体的に迅速なトレーニングと精度の向上をもたらします。
私たちの結果は、自由ノットのスプラインKanアーキテクチャと、各重量テンソルのチャネル次元に沿って幾何学的に洗練されたMLPのクラスとの同等性を示しています。
この構造的等価性を活用して、マルチチャネルMLPアーキテクチャのトレーニングを劇的に加速する階層洗練スキームを定義します。
スプラインノットの$ 1 $ Dの場所を重量と同時にトレーニングできるようにすることで、さらに精度の改善が可能になります。
これらの進歩は、回帰と科学的機械学習のためのさまざまなベンチマーク例で実証されています。

要約(オリジナル)

Multilayer perceptrons (MLPs) are a workhorse machine learning architecture, used in a variety of modern deep learning frameworks. However, recently Kolmogorov-Arnold Networks (KANs) have become increasingly popular due to their success on a range of problems, particularly for scientific machine learning tasks. In this paper, we exploit the relationship between KANs and multichannel MLPs to gain structural insight into how to train MLPs faster. We demonstrate the KAN basis (1) provides geometric localized support, and (2) acts as a preconditioned descent in the ReLU basis, overall resulting in expedited training and improved accuracy. Our results show the equivalence between free-knot spline KAN architectures, and a class of MLPs that are refined geometrically along the channel dimension of each weight tensor. We exploit this structural equivalence to define a hierarchical refinement scheme that dramatically accelerates training of the multi-channel MLP architecture. We show further accuracy improvements can be had by allowing the $1$D locations of the spline knots to be trained simultaneously with the weights. These advances are demonstrated on a range of benchmark examples for regression and scientific machine learning.

arxiv情報

著者 Jonas A. Actor,Graham Harper,Ben Southworth,Eric C. Cyr
発行日 2025-05-23 17:41:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T99, cs.AI, cs.LG, I.2.6 | Leveraging KANs for Expedient Training of Multichannel MLPs via Preconditioning and Geometric Refinement はコメントを受け付けていません

Gaming Tool Preferences in Agentic LLMs

要約

大規模な言語モデル(LLMS)は、モデルコンテキストプロトコル(MCP)のおかげで、幅広い外部ツールにアクセスできるようになりました。
これにより、さまざまなエージェントとしての能力が大幅に拡大します。
ただし、LLMは、使用するツールのテキストの説明に完全に依存しています。これは、驚くほど壊れやすいプロセスです。
この作業では、一連の編集をツールの説明まで調査することにより、一般的なツール/関数をコールするプロトコルの脆弱性を公開します。その一部は、代替品と競合するときにLLMSからのツールの使用を大幅に増加させる可能性があります。
制御された実験を通じて、適切に編集された説明を持つツールは、元の説明を持つツールよりもGPT-4.1およびQWEN2.5-7Bから10倍以上の使用量を受け取ることを示します。
さらに、互いに直接競合するときにツール説明に対するさまざまな編集がどのように機能するか、およびこれらの傾向が10の異なるモデルのより広いセットでどのように一般化または異なるかを評価します。
これらの現象は、開発者にツールを促進する強力な方法を提供しながら、エージェントLLMがツールとリソースを選択および利用するためのより信頼性の高い基盤の必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) can now access a wide range of external tools, thanks to the Model Context Protocol (MCP). This greatly expands their abilities as various agents. However, LLMs rely entirely on the text descriptions of tools to decide which ones to use–a process that is surprisingly fragile. In this work, we expose a vulnerability in prevalent tool/function-calling protocols by investigating a series of edits to tool descriptions, some of which can drastically increase a tool’s usage from LLMs when competing with alternatives. Through controlled experiments, we show that tools with properly edited descriptions receive over 10 times more usage from GPT-4.1 and Qwen2.5-7B than tools with original descriptions. We further evaluate how various edits to tool descriptions perform when competing directly with one another and how these trends generalize or differ across a broader set of 10 different models. These phenomenons, while giving developers a powerful way to promote their tools, underscore the need for a more reliable foundation for agentic LLMs to select and utilize tools and resources.

arxiv情報

著者 Kazem Faghih,Wenxiao Wang,Yize Cheng,Siddhant Bharti,Gaurang Sriramanan,Sriram Balasubramanian,Parsa Hosseini,Soheil Feizi
発行日 2025-05-23 17:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | Gaming Tool Preferences in Agentic LLMs はコメントを受け付けていません

Graph-Linguistic Fusion: Using Language Models for Wikidata Vandalism Detection

要約

Wikidataの次世代破壊行為検出システムを紹介します。Wikidataは、Web上で最大のオープンソース構造化知識ベースの1つです。
Wikidataは非常に複雑です。そのアイテムには、事実上のトリプルと多言語テキストの拡大が続く宇宙が組み込まれています。
編集は構造化されたコンテンツとテキストコンテンツの両方を変更できますが、私たちのアプローチは、Graph2Textと呼ばれるメソッドを使用して、すべての編集を単一のスペースに変換します。
これにより、単一の多言語言語モデルを使用して、潜在的な破壊行為のすべてのコンテンツ変更を評価できます。
この統一されたアプローチは、カバレッジを改善し、メンテナンスを簡素化します。
実験は、私たちのソリューションが現在の生産システムよりも優れていることを示しています。
さらに、オープンライセンスの下でコードをリリースし、さまざまな人間で生成された知識の変更の大規模なデータセットとともに、さらなる研究を可能にします。

要約(オリジナル)

We introduce a next-generation vandalism detection system for Wikidata, one of the largest open-source structured knowledge bases on the Web. Wikidata is highly complex: its items incorporate an ever-expanding universe of factual triples and multilingual texts. While edits can alter both structured and textual content, our approach converts all edits into a single space using a method we call Graph2Text. This allows for evaluating all content changes for potential vandalism using a single multilingual language model. This unified approach improves coverage and simplifies maintenance. Experiments demonstrate that our solution outperforms the current production system. Additionally, we are releasing the code under an open license along with a large dataset of various human-generated knowledge alterations, enabling further research.

arxiv情報

著者 Mykola Trokhymovych,Lydia Pintscher,Ricardo Baeza-Yates,Diego Saez-Trumper
発行日 2025-05-23 17:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Graph-Linguistic Fusion: Using Language Models for Wikidata Vandalism Detection はコメントを受け付けていません

Embracing Contradiction: Theoretical Inconsistency Will Not Impede the Road of Building Responsible AI Systems

要約

このポジションペーパーでは、正確性とプライバシーの間の異なる公平性の定義やトレードオフなど、責任あるAI(RAI)メトリックの間でしばしば観察される理論的な矛盾は、排除する欠陥ではなく貴重な機能として受け入れるべきであると主張しています。
私たちは、これらの矛盾を、メトリックを発散的な目的として扱うことにより、3つの重要な利点をもたらすと主張します。(1)規範的多元主義:矛盾する潜在的なメトリックの完全なスイートを維持することで、RAIに固有の多様な道徳的スタンスと利害関係者の価値が適切に表されることを保証します。
(2)認識論的完全性:複数の、時には矛盾するメトリックの使用により、多面的な倫理的概念をより包括的な捉えることができ、それにより、これらの概念に関するより大きな単純化された定義よりも大きな情報的忠実度が維持されます。
(3)暗黙的な正則化:理論的に矛盾する目的のために共同で最適化すると、1つの特定のメトリックに過剰に適合し、実際の複雑さの下での一般化と堅牢性を備えたソリューションへの操縦モデルを阻止します。
対照的に、メトリックを簡素化または剪定することにより、この価値の多様性を狭め、概念的な深さを失い、モデルのパフォーマンスを低下させることにより、理論的一貫性を実施する努力。
したがって、私たちはRAIの理論と実践の変化を提唱しています。矛盾に閉じ込められることから、許容可能な矛盾のしきい値を特徴付け、堅牢で堅牢で近似の一貫性を可能にするメカニズムを解明します。

要約(オリジナル)

This position paper argues that the theoretical inconsistency often observed among Responsible AI (RAI) metrics, such as differing fairness definitions or tradeoffs between accuracy and privacy, should be embraced as a valuable feature rather than a flaw to be eliminated. We contend that navigating these inconsistencies, by treating metrics as divergent objectives, yields three key benefits: (1) Normative Pluralism: Maintaining a full suite of potentially contradictory metrics ensures that the diverse moral stances and stakeholder values inherent in RAI are adequately represented. (2) Epistemological Completeness: The use of multiple, sometimes conflicting, metrics allows for a more comprehensive capture of multifaceted ethical concepts, thereby preserving greater informational fidelity about these concepts than any single, simplified definition. (3) Implicit Regularization: Jointly optimizing for theoretically conflicting objectives discourages overfitting to one specific metric, steering models towards solutions with enhanced generalization and robustness under real-world complexities. In contrast, efforts to enforce theoretical consistency by simplifying or pruning metrics risk narrowing this value diversity, losing conceptual depth, and degrading model performance. We therefore advocate for a shift in RAI theory and practice: from getting trapped in inconsistency to characterizing acceptable inconsistency thresholds and elucidating the mechanisms that permit robust, approximated consistency in practice.

arxiv情報

著者 Gordon Dai,Yunze Xiao
発行日 2025-05-23 17:48:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Embracing Contradiction: Theoretical Inconsistency Will Not Impede the Road of Building Responsible AI Systems はコメントを受け付けていません

Lost in the Haystack: Smaller Needles are More Difficult for LLMs to Find

要約

大規模な言語モデル(LLM)は、ヘイスタックの針タスクで大きな課題に直面しています。関連する情報(「針」)は、無関係なコンテキスト(「ヘイスタック」)の大きなプールから引き出されなければなりません。
以前の研究では、モデルのパフォーマンスに影響を与える重要な要因としての位置バイアスとディストラクタの量を強調していますが、金のコンテキストサイズの影響はほとんど注目されていません。
ゴールドコンテキストの長さの変動がLLMパフォーマンスに長いコンテキスト質問にどのように影響するかを体系的に研究することにより、このギャップに対処します。
私たちの実験では、金のコンテキストが短い場合、つまり、より小さな金のコンテキストがモデルのパフォーマンスを一貫して分解し、位置感度を増幅すると、LLMのパフォーマンスが急激に低下することが明らかになり、さまざまな長さの散在した微細な情報を統合しなければならないエージェントシステムに大きな課題をもたらします。
このパターンは、3つの多様なドメイン(一般的な知識、生物医学的推論、数学的推論)と、さまざまなサイズとアーキテクチャの7つの最先端のLLMにまたがります。
私たちの作品は、堅牢でコンテキスト認識したLLM駆動型システムの設計を導くための明確な洞察を提供します。

要約(オリジナル)

Large language models (LLMs) face significant challenges with needle-in-a-haystack tasks, where relevant information (‘the needle’) must be drawn from a large pool of irrelevant context (‘the haystack’). Previous studies have highlighted positional bias and distractor quantity as critical factors affecting model performance, yet the influence of gold context size has received little attention. We address this gap by systematically studying how variations in gold context length impact LLM performance on long-context question answering tasks. Our experiments reveal that LLM performance drops sharply when the gold context is shorter, i.e., smaller gold contexts consistently degrade model performance and amplify positional sensitivity, posing a major challenge for agentic systems that must integrate scattered, fine-grained information of varying lengths. This pattern holds across three diverse domains (general knowledge, biomedical reasoning, and mathematical reasoning) and seven state-of-the-art LLMs of various sizes and architectures. Our work provides clear insights to guide the design of robust, context-aware LLM-driven systems.

arxiv情報

著者 Owen Bianchi,Mathew J. Koretsky,Maya Willey,Chelsea X. Alvarado,Tanay Nayak,Adi Asija,Nicole Kuznetsov,Mike A. Nalls,Faraz Faghri,Daniel Khashabi
発行日 2025-05-23 17:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Lost in the Haystack: Smaller Needles are More Difficult for LLMs to Find はコメントを受け付けていません

Explainable Anatomy-Guided AI for Prostate MRI: Foundation Models and In Silico Clinical Trials for Virtual Biopsy-based Risk Assessment

要約

私たちは、日常的なMRIを使用した前立腺がん(PCA)リスク層別化のための完全に自動化された、解剖学的に導かれた深い学習パイプラインを提示します。
パイプラインには、3つの重要なコンポーネントが統合されています。軸方向T2強調MRI上の前立腺とそのゾーンをセグメント化するためのNNU-NETモジュール。
オプションの解剖学的前層と臨床データを備えた3Dパッチで微調整されたUMEDPT SWIN Transformer Foundationモデルに基づく分類モジュール。
意思決定運転画像領域をローカライズする反事実的ヒートマップを生成するためのVae-Ganフレームワーク。
このシステムは、セグメンテーションのために1,500 PI-CAIケースを使用して開発され、分類のためにChaimeleon Challengeのメタデータを使用した617個のビパラメトリックMRIを使用して開発されました(70%のトレーニング、10%の検証、20%のテストに分割)。
セグメンテーションは、0.95(腺)、0.94(末梢ゾーン)、および0.92(遷移ゾーン)の平均DICEスコアを達成しました。
腺前輪を組み込むと、AUCが0.69から0.72に改善され、3つのスケールのアンサンブルがトップパフォーマンスを達成し(AUC = 0.79、複合スコア= 0.76)、2024 Chaimeleon Challengeの勝者を上回りました。
反事実的なヒートマップは、セグメント化された領域内の病変を確実に強調し、モデルの解釈性を高めました。
20人の臨床医を対象とした前向きのマルチセンター内試験では、AI支援により、診断精度が0.72から0.77に、コーエンのカッパは0.43から0.53に増加し、症例あたりのレビュー時間を40%削減しました。
これらの結果は、反事実的な説明可能性を備えた解剖学を意識した基礎モデルが、正確で解釈可能な効率的なPCAリスク評価を可能にし、臨床診療における仮想生検としての潜在的な使用をサポートすることを示しています。

要約(オリジナル)

We present a fully automated, anatomically guided deep learning pipeline for prostate cancer (PCa) risk stratification using routine MRI. The pipeline integrates three key components: an nnU-Net module for segmenting the prostate gland and its zones on axial T2-weighted MRI; a classification module based on the UMedPT Swin Transformer foundation model, fine-tuned on 3D patches with optional anatomical priors and clinical data; and a VAE-GAN framework for generating counterfactual heatmaps that localize decision-driving image regions. The system was developed using 1,500 PI-CAI cases for segmentation and 617 biparametric MRIs with metadata from the CHAIMELEON challenge for classification (split into 70% training, 10% validation, and 20% testing). Segmentation achieved mean Dice scores of 0.95 (gland), 0.94 (peripheral zone), and 0.92 (transition zone). Incorporating gland priors improved AUC from 0.69 to 0.72, with a three-scale ensemble achieving top performance (AUC = 0.79, composite score = 0.76), outperforming the 2024 CHAIMELEON challenge winners. Counterfactual heatmaps reliably highlighted lesions within segmented regions, enhancing model interpretability. In a prospective multi-center in-silico trial with 20 clinicians, AI assistance increased diagnostic accuracy from 0.72 to 0.77 and Cohen’s kappa from 0.43 to 0.53, while reducing review time per case by 40%. These results demonstrate that anatomy-aware foundation models with counterfactual explainability can enable accurate, interpretable, and efficient PCa risk assessment, supporting their potential use as virtual biopsies in clinical practice.

arxiv情報

著者 Danial Khan,Zohaib Salahuddin,Yumeng Zhang,Sheng Kuang,Shruti Atul Mali,Henry C. Woodruff,Sina Amirrajab,Rachel Cavill,Eduardo Ibor-Crespo,Ana Jimenez-Pastor,Adrian Galiana-Bordera,Paula Jimenez Gomez,Luis Marti-Bonmati,Philippe Lambin
発行日 2025-05-23 14:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Explainable Anatomy-Guided AI for Prostate MRI: Foundation Models and In Silico Clinical Trials for Virtual Biopsy-based Risk Assessment はコメントを受け付けていません