Rhythmic sharing: A bio-inspired paradigm for zero-shot adaptation and learning in neural networks

要約

脳は新しいコンテキストに迅速に適応し、限られたデータから学ぶことができます。これは、人工知能アルゴリズムが模倣に苦労しているという切望された特徴です。
神経細胞の機械的構造の振動リズムに触発され、リンク強度の振動に基づいた学習パラダイムを開発し、これらの振動の調整と学習することに関連しています。
このパラダイムは、人工ニューラルネットワークにおける迅速な適応と学習をもたらすことがわかります。
リンク振動は、調整を迅速に変化させ、ネットワークに微妙なコンテキストの変化を監視していない方法で感知する能力を与えます。
言い換えれば、ネットワークは、複数のコンテキストでダイナミクスを予測できるジェネラリストAIアーキテクチャとして実行するために必要な欠落しているコンテキストトークンを生成します。
また、振動により、ネットワークはダイナミクスを外挿して、これまでにないコンテキストに外挿することもできます。
これらの機能により、学習パラダイムは、学習と認知の新しいモデルの強力な出発点になります。
さらに、リンク調整による学習は、ニューラルネットワークアーキテクチャの詳細に対する不可知論者です。したがって、私たちの研究は、主要なAIモデルに迅速な適応と学習能力を導入するための扉を開きます。

要約(オリジナル)

The brain can rapidly adapt to new contexts and learn from limited data, a coveted characteristic that artificial intelligence algorithms have struggled to mimic. Inspired by oscillatory rhythms of the mechanical structures of neural cells, we developed a learning paradigm that is based on oscillations in link strengths and associates learning with the coordination of these oscillations. We find that this paradigm yields rapid adaptation and learning in artificial neural networks. Link oscillations can rapidly change coordination, endowing the network with the ability to sense subtle context changes in an unsupervised manner. In other words, the network generates the missing contextual tokens required to perform as a generalist AI architecture capable of predicting dynamics in multiple contexts. Oscillations also allow the network to extrapolate dynamics to never-seen-before contexts. These capabilities make our learning paradigm a powerful starting point for novel models of learning and cognition. Furthermore, learning through link coordination is agnostic to the specifics of the neural network architecture, hence our study opens the door for introducing rapid adaptation and learning capabilities into leading AI models.

arxiv情報

著者 Hoony Kang,Wolfgang Losert
発行日 2025-02-12 18:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.DS, nlin.AO, physics.bio-ph | Rhythmic sharing: A bio-inspired paradigm for zero-shot adaptation and learning in neural networks はコメントを受け付けていません

DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models

要約

さまざまなタスクでテキスト間拡散モデルを広く使用しているにもかかわらず、計算およびメモリの要求は実用的なアプリケーションを制限しています。
この問題を軽減するために、拡散モデルの量子化が調査されています。
重量とアクティベーションを低ビット形式に圧縮することにより、メモリの使用量と計算コストを削減します。
ただし、既存の方法は、特に低ビット($ <$ 8ビット)の量子化において、画質とテキストイメージの両方の調整を維持するのに苦労しています。 この論文では、分布の観点からテキスト間拡散モデルを量子化することに関連する課題を分析します。 私たちの分析により、活性化外れ値が画質を決定する上で重要な役割を果たすことが明らかになりました。 さらに、クロスアテンションスコアの特徴的なパターンを特定し、テキストイメージのアライメントに大きな影響を与えます。 これらの課題に対処するために、分布認識グループ量子化(DGQ)を提案します。これは、画質を維持するためにピクセルごとのアウトレイとチャネルごとの外れ値を識別し、適応的に処理する方法です。 さらに、DGQは、テキストイメージのアライメントを維持するために、プロンプト固有の対数定量化スケールを適用します。 私たちの方法は、MS-COCOやPartipromptsなどのデータセットでの顕著なパフォーマンスを示しています。 私たちは、重量量子化パラメーターの追加の微調整を必要とせずに、テキストから画像への拡散モデルの低ビットの量子化を正常に達成した最初の人です。 コードはhttps://github.com/ugonfor/dgqで入手できます。

要約(オリジナル)

Despite the widespread use of text-to-image diffusion models across various tasks, their computational and memory demands limit practical applications. To mitigate this issue, quantization of diffusion models has been explored. It reduces memory usage and computational costs by compressing weights and activations into lower-bit formats. However, existing methods often struggle to preserve both image quality and text-image alignment, particularly in lower-bit($<$ 8bits) quantization. In this paper, we analyze the challenges associated with quantizing text-to-image diffusion models from a distributional perspective. Our analysis reveals that activation outliers play a crucial role in determining image quality. Additionally, we identify distinctive patterns in cross-attention scores, which significantly affects text-image alignment. To address these challenges, we propose Distribution-aware Group Quantization (DGQ), a method that identifies and adaptively handles pixel-wise and channel-wise outliers to preserve image quality. Furthermore, DGQ applies prompt-specific logarithmic quantization scales to maintain text-image alignment. Our method demonstrates remarkable performance on datasets such as MS-COCO and PartiPrompts. We are the first to successfully achieve low-bit quantization of text-to-image diffusion models without requiring additional fine-tuning of weight quantization parameters. Code is available at https://github.com/ugonfor/DGQ.

arxiv情報

著者 Hyogon Ryu,NaHyeon Park,Hyunjung Shim
発行日 2025-02-12 10:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models はコメントを受け付けていません

All You Need in Knowledge Distillation Is a Tailored Coordinate System

要約

知識蒸留(KD)は、大規模な教師から小規模な学生ネットワークに暗い知識を転送するのに不可欠です。そうすれば、生徒は教師よりもはるかに効率的になりますが、同等の正確さがあります。
ただし、既存のKDメソッドは、ターゲットタスク専用に訓練された大規模な教師に依存しています。これは非常に柔軟性があり、非効率的です。
この論文では、SSLに基づいたモデルが教師として効果的に機能し、その暗い知識は、機能がある座標系または線形サブスペースによってキャプチャできると主張します。その後、教師の1つのフォワードパスしか必要ありません。
次に、学生ネットワークの座標系(TCS)を調整します。
TCSメソッドは教師がいないため、多様なアーキテクチャに適用され、KDおよび実用的な少数の学習に適しています。
実験では、TCSは最先端のKDメソッドよりも大幅に高い精度を達成し、トレーニング時間とGPUメモリコストの約半分しか必要としないことが示されています。

要約(オリジナル)

Knowledge Distillation (KD) is essential in transferring dark knowledge from a large teacher to a small student network, such that the student can be much more efficient than the teacher but with comparable accuracy. Existing KD methods, however, rely on a large teacher trained specifically for the target task, which is both very inflexible and inefficient. In this paper, we argue that a SSL-pretrained model can effectively act as the teacher and its dark knowledge can be captured by the coordinate system or linear subspace where the features lie in. We then need only one forward pass of the teacher, and then tailor the coordinate system (TCS) for the student network. Our TCS method is teacher-free and applies to diverse architectures, works well for KD and practical few-shot learning, and allows cross-architecture distillation with large capacity gap. Experiments show that TCS achieves significantly higher accuracy than state-of-the-art KD methods, while only requiring roughly half of their training time and GPU memory costs.

arxiv情報

著者 Junjie Zhou,Ke Zhu,Jianxin Wu
発行日 2025-02-12 10:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | All You Need in Knowledge Distillation Is a Tailored Coordinate System はコメントを受け付けていません

BEAM: Bridging Physically-based Rendering and Gaussian Modeling for Relightable Volumetric Video

要約

ボリューム測定ビデオは、動的な3Dシーンをキャプチャし、仮想現実、教育、テレペランスのための多様なアプリケーションを可能にすることにより、没入型のエクスペリエンスを可能にします。
ただし、従来の方法は固定照明条件と闘っていますが、神経アプローチは、信頼できるシナリオの効率、品質、または適応性のトレードオフに直面しています。
これらの制限に対処するために、マルチビューRGB映像から高品質で信頼できるボリュームビデオビデオを生成するために、物理ベースのレンダリング(PBR)を備えた4Dガウス表現を橋渡しする新しいパイプラインであるBeam​​を提示します。
Beamは、利用可能な一連のガウスベースの手法を介して、詳細なジオメトリとPBR特性を回復します。
まず、ガウスベースのパフォーマンス追跡と、粗から洗練された最適化フレームワークでのジオメトリを意識したラスター化を組み合わせて、空間的および時間的に一貫したジオメトリを回復します。
PBRプロパティを段階的に組み込むことにより、ガウス属性をさらに強化します。
マルチビュー条件付き拡散モデルを介して粗さを生成し、2Dツー3D戦略を使用してAOとベースの色を導き出し、効率的な視認性計算のためにテーラードガウスベースのレイトレーサーを組み込んでいます。
回復すると、これらの動的で信頼できる資産は、従来のCGパイプラインにシームレスに統合され、延期されたシェーディングとレイトレースによるオフラインレンダリングでリアルタイムレンダリングをサポートします。
ビームは、多様な照明条件下で現実的でリアルな視覚化を提供することにより、インタラクティブなエンターテイメント、ストーリーテリング、創造的な視覚化のための新しい可能性を開きます。

要約(オリジナル)

Volumetric video enables immersive experiences by capturing dynamic 3D scenes, enabling diverse applications for virtual reality, education, and telepresence. However, traditional methods struggle with fixed lighting conditions, while neural approaches face trade-offs in efficiency, quality, or adaptability for relightable scenarios. To address these limitations, we present BEAM, a novel pipeline that bridges 4D Gaussian representations with physically-based rendering (PBR) to produce high-quality, relightable volumetric videos from multi-view RGB footage. BEAM recovers detailed geometry and PBR properties via a series of available Gaussian-based techniques. It first combines Gaussian-based performance tracking with geometry-aware rasterization in a coarse-to-fine optimization framework to recover spatially and temporally consistent geometries. We further enhance Gaussian attributes by incorporating PBR properties step by step. We generate roughness via a multi-view-conditioned diffusion model, and then derive AO and base color using a 2D-to-3D strategy, incorporating a tailored Gaussian-based ray tracer for efficient visibility computation. Once recovered, these dynamic, relightable assets integrate seamlessly into traditional CG pipelines, supporting real-time rendering with deferred shading and offline rendering with ray tracing. By offering realistic, lifelike visualizations under diverse lighting conditions, BEAM opens new possibilities for interactive entertainment, storytelling, and creative visualization.

arxiv情報

著者 Yu Hong,Yize Wu,Zhehao Shen,Chengcheng Guo,Yuheng Jiang,Yingliang Zhang,Jingyi Yu,Lan Xu
発行日 2025-02-12 10:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | BEAM: Bridging Physically-based Rendering and Gaussian Modeling for Relightable Volumetric Video はコメントを受け付けていません

When do they StOP?: A First Step Towards Automatically Identifying Team Communication in the Operating Room

要約

目的:外科的パフォーマンスは、外科医の技術的スキルだけでなく、手術中に存在するさまざまな専門家グループ内および全体のチームコミュニケーションにも依存します。
したがって、ORでのチームコミュニケーションを自動的に特定することは、患者の安全性とコンピューター支援の外科的ワークフロー分析と術中サポートシステムの開発における進歩に重要です。
最初の一歩を踏み出すために、すべてまたはチームメンバーが関与するコミュニケーションブリーフィング、つまりチームのタイムアウトとストップ? – プロトコルを検出する新しいタスクを提案します。
方法:Team-ORと呼ばれる実際の手術のデータセットを生成し、ORのマルチビューカメラシステムによってキャプチャされた100時間以上の手術ビデオを使用します。
データセットには、33のタイムアウトと22の停止の時間的注釈が含まれています。
次に、シーンのコンテキストとアクション機能の両方をエンコードし、効率的なニューラルネットワークモデルを使用して結果を出力する新しいグループアクティビティ検出アプローチを提案します。
結果:チームまたはデータセットの実験結果は、このアプローチが既存の最先端の時間的アクション検出アプローチを上回ることを示しています。
また、ORのグループ活動に関する研究の欠如も示しており、データセットの重要性を証明しています。
結論:チームのタイムアウトと停止を調査しますか? – またはデータセットにグループアクティビティプロトコルの時間的注釈を提示し、既存のアプローチを上回る新しいグループアクティビティ検出アプローチを導入します。
コードはhttps://github.com/camma-public/team-orで入手できます。

要約(オリジナル)

Purpose: Surgical performance depends not only on surgeons’ technical skills but also on team communication within and across the different professional groups present during the operation. Therefore, automatically identifying team communication in the OR is crucial for patient safety and advances in the development of computer-assisted surgical workflow analysis and intra-operative support systems. To take the first step, we propose a new task of detecting communication briefings involving all OR team members, i.e. the team Time-out and the StOP?-protocol, by localizing their start and end times in video recordings of surgical operations. Methods: We generate an OR dataset of real surgeries, called Team-OR, with more than one hundred hours of surgical videos captured by the multi-view camera system in the OR. The dataset contains temporal annotations of 33 Time-out and 22 StOP?-protocol activities in total. We then propose a novel group activity detection approach, where we encode both scene context and action features, and use an efficient neural network model to output the results. Results: The experimental results on the Team-OR dataset show that our approach outperforms existing state-of-the-art temporal action detection approaches. It also demonstrates the lack of research on group activities in the OR, proving the significance of our dataset. Conclusion: We investigate the Team Time-Out and the StOP?-protocol in the OR, by presenting the first OR dataset with temporal annotations of group activities protocols, and introducing a novel group activity detection approach that outperforms existing approaches. Code is available at https://github.com/CAMMA-public/Team-OR .

arxiv情報

著者 Keqi Chen,Lilien Schewski,Vinkle Srivastav,Joël Lavanchy,Didier Mutter,Guido Beldi,Sandra Keller,Nicolas Padoy
発行日 2025-02-12 10:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | When do they StOP?: A First Step Towards Automatically Identifying Team Communication in the Operating Room はコメントを受け付けていません

VIPeR: Visual Incremental Place Recognition with Adaptive Mining and Continual Learning

要約

Visual Place認識(VPR)は、多くの自律的および拡張/仮想現実システムの重要なコンポーネントです。
これにより、システムは大規模な環境で自分自身を堅牢にローカライズできます。
既存のVPRメソッドは、トレーニング前の重いコストと限られた一般化可能性を犠牲にして魅力的なパフォーマンスを示しています。
目に見えない環境に展開されると、これらの方法は大幅なパフォーマンスドロップを示します。
この問題をターゲットにして、以前の環境のパフォーマンスを維持しながら新しい環境に適応する能力を備えた視覚的漸進的な場所認識のための新しいアプローチであるViperを提示します。
最初に、単一の環境内のパフォーマンスと複数の環境にわたる一般化可能性のバランスをとる適応マイニング戦略を紹介します。
次に、生涯学習における壊滅的な忘却を防ぐために、私たちは人間の記憶システムからインスピレーションを引き出し、バイパーのための新しい記憶バンクを設計します。
私たちのメモリバンクには、感覚メモリ、作業記憶、長期記憶が含まれており、最初の2つは現在の環境に焦点を当て、以前に訪問したすべての環境の最後の環境に焦点を当てています。
さらに、以前に学んだ知識を明示的に保護するために、確率的知識の蒸留を提案します。
提案されたViperを3つの大規模なデータセット、つまりOxford Robotcar、Nordland、およびTartanairで評価します。
比較のために、最初に素朴なFinetuningでベースラインパフォーマンスを設定しました。
次に、最近の生涯学習方法をいくつか比較します。
私たちのViperは、ほぼすべての側面でより良いパフォーマンスを達成し、平均パフォーマンスで13.65%の最大の改善があります。

要約(オリジナル)

Visual place recognition (VPR) is an essential component of many autonomous and augmented/virtual reality systems. It enables the systems to robustly localize themselves in large-scale environments. Existing VPR methods demonstrate attractive performance at the cost of heavy pre-training and limited generalizability. When deployed in unseen environments, these methods exhibit significant performance drops. Targeting this issue, we present VIPeR, a novel approach for visual incremental place recognition with the ability to adapt to new environments while retaining the performance of previous environments. We first introduce an adaptive mining strategy that balances the performance within a single environment and the generalizability across multiple environments. Then, to prevent catastrophic forgetting in lifelong learning, we draw inspiration from human memory systems and design a novel memory bank for our VIPeR. Our memory bank contains a sensory memory, a working memory and a long-term memory, with the first two focusing on the current environment and the last one for all previously visited environments. Additionally, we propose a probabilistic knowledge distillation to explicitly safeguard the previously learned knowledge. We evaluate our proposed VIPeR on three large-scale datasets, namely Oxford Robotcar, Nordland, and TartanAir. For comparison, we first set a baseline performance with naive finetuning. Then, several more recent lifelong learning methods are compared. Our VIPeR achieves better performance in almost all aspects with the biggest improvement of 13.65% in average performance.

arxiv情報

著者 Yuhang Ming,Minyang Xu,Xingrui Yang,Weicai Ye,Weihan Wang,Yong Peng,Weichen Dai,Wanzeng Kong
発行日 2025-02-12 11:15:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | VIPeR: Visual Incremental Place Recognition with Adaptive Mining and Continual Learning はコメントを受け付けていません

Similarity and Quality Metrics for MR Image-To-Image Translation

要約

画像から画像への翻訳は、画像を他のモダリティ、シーケンスタイプ、より高い解像度、または低いノイズレベルに合成的に変換できるため、医療画像に大きな影響を与える可能性があります。
患者の安全性を確保するために、これらの方法は人間の読者によって検証されるべきです。これにはかなりの時間とコストが必要です。
定量的メトリックは、そのような研究を効果的に補完し、合成画像の再現性と客観的な評価を提供できます。
参照が利用可能な場合、MR画像の類似性は、特定の歪みに関してこれらのメトリックが敏感ではない場合でも、SSIMおよびPSNRメトリックによって頻繁に評価されます。
比較する参照画像が利用できない場合、非参照品質メトリックは、ぼやけなどの特定の歪みを確実に検出できます。
歪み感度の概要を提供するために、合成画像を評価するための11の類似性(参照)および12の品質(非参照)メトリックを定量的に分析します。
さらに、下流のセグメンテーションタスクにメトリックを含めます。
11種類の歪みと典型的なMRアーティファクトに関する感度を調査し、各メトリックと歪みに対する異なる正規化方法の影響を分析します。
最後に、画像間翻訳モデルの評価のための分析された類似性と品質メトリックの効果的な使用に関する推奨事項を導き出します。

要約(オリジナル)

Image-to-image translation can create large impact in medical imaging, as images can be synthetically transformed to other modalities, sequence types, higher resolutions or lower noise levels. To ensure patient safety, these methods should be validated by human readers, which requires a considerable amount of time and costs. Quantitative metrics can effectively complement such studies and provide reproducible and objective assessment of synthetic images. If a reference is available, the similarity of MR images is frequently evaluated by SSIM and PSNR metrics, even though these metrics are not or too sensitive regarding specific distortions. When reference images to compare with are not available, non-reference quality metrics can reliably detect specific distortions, such as blurriness. To provide an overview on distortion sensitivity, we quantitatively analyze 11 similarity (reference) and 12 quality (non-reference) metrics for assessing synthetic images. We additionally include a metric on a downstream segmentation task. We investigate the sensitivity regarding 11 kinds of distortions and typical MR artifacts, and analyze the influence of different normalization methods on each metric and distortion. Finally, we derive recommendations for effective usage of the analyzed similarity and quality metrics for evaluation of image-to-image translation models.

arxiv情報

著者 Melanie Dohmen,Mark A. Klemens,Ivo M. Baltruschat,Tuan Truong,Matthias Lenga
発行日 2025-02-12 11:21:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Similarity and Quality Metrics for MR Image-To-Image Translation はコメントを受け付けていません

Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting

要約

空間的関係の幻覚は、大きな視覚言語モデル(LVLMS)で永続的な課題をもたらし、画像内のオブジェクトの位置と空間構成に関する誤った予測を生成します。
この問題に対処するために、空間的関係の幻覚を減らすために設計された制約対応プロンプトフレームワークを提案します。
具体的には、2つのタイプの制約を導入します。(1)ペアワイズオブジェクト関係の一貫性を保証する双方向制約と(2)複数のオブジェクトにわたってリレーショナル依存性を施行するトランジテーション制約。
これらの制約を組み込むことにより、LVLMSはより空間的に一貫性のある一貫した出力を生成できます。
広く使用されている3つの空間関係データセットでの方法を評価し、既存のアプローチに対するパフォーマンスの改善を示します。
さらに、さまざまな双方向関係分析の選択肢とトランジテーション参照選択の体系的な分析は、空間関係の幻覚を緩和するための制約を組み込む際の方法のより大きな可能性を強調しています。

要約(オリジナル)

Spatial relation hallucinations pose a persistent challenge in large vision-language models (LVLMs), leading to generate incorrect predictions about object positions and spatial configurations within an image. To address this issue, we propose a constraint-aware prompting framework designed to reduce spatial relation hallucinations. Specifically, we introduce two types of constraints: (1) bidirectional constraint, which ensures consistency in pairwise object relations, and (2) transitivity constraint, which enforces relational dependence across multiple objects. By incorporating these constraints, LVLMs can produce more spatially coherent and consistent outputs. We evaluate our method on three widely-used spatial relation datasets, demonstrating performance improvements over existing approaches. Additionally, a systematic analysis of various bidirectional relation analysis choices and transitivity reference selections highlights greater possibilities of our methods in incorporating constraints to mitigate spatial relation hallucinations.

arxiv情報

著者 Jiarui Wu,Zhuo Liu,Hangfeng He
発行日 2025-02-12 11:32:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting はコメントを受け付けていません

Screener: Self-supervised Pathology Segmentation Model for 3D Medical Images

要約

3D医療画像におけるすべての病理学的所見の正確なセグメンテーションは、既存のデータセットで注釈が付けられたいくつかの病理学クラスのみを検出することに限定されているため、3D医療画像におけるすべての病理学的所見の正確なセグメンテーションのままです。
これに対処するために、病理のセグメンテーションを、監視されていない視覚的異常セグメンテーション(UVAS)問題としてフレーム化し、健康なパターンと比較して病理学的パターンの固有の希少性を活用します。
2つの重要なイノベーションを備えた既存の密度ベースのUVASフレームワークを強化します。(1)特徴抽出のための密度の高い自己監視学習(SSL)、監視前のトレーニングの必要性を排除し、(2)学習し、学習し、マスキングに不均一な密な特徴として
手作りの位置エンコーディングを置き換えるコンディショニング変数。
30,000を超える非標識3D CTボリュームでトレーニングされたモデル、スクリーナーは、多様な病理を伴う1,820のスキャンを含む4つの大規模なテストデータセットで既存のUVASメソッドを上回ります。
コードと事前に訓練されたモデルが公開されます。

要約(オリジナル)

Accurate segmentation of all pathological findings in 3D medical images remains a significant challenge, as supervised models are limited to detecting only the few pathology classes annotated in existing datasets. To address this, we frame pathology segmentation as an unsupervised visual anomaly segmentation (UVAS) problem, leveraging the inherent rarity of pathological patterns compared to healthy ones. We enhance the existing density-based UVAS framework with two key innovations: (1) dense self-supervised learning (SSL) for feature extraction, eliminating the need for supervised pre-training, and (2) learned, masking-invariant dense features as conditioning variables, replacing hand-crafted positional encodings. Trained on over 30,000 unlabeled 3D CT volumes, our model, Screener, outperforms existing UVAS methods on four large-scale test datasets comprising 1,820 scans with diverse pathologies. Code and pre-trained models will be made publicly available.

arxiv情報

著者 Mikhail Goncharov,Eugenia Soboleva,Mariia Donskova,Ivan Oseledets,Marina Munkhoeva,Maxim Panov
発行日 2025-02-12 11:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Screener: Self-supervised Pathology Segmentation Model for 3D Medical Images はコメントを受け付けていません

Foundation Models in Computational Pathology: A Review of Challenges, Opportunities, and Impact

要約

自己監視のビジョン専用モデルから対照的な視覚言語フレームワークまで、計算病理学は近年急速に進化しています。
生成AI ‘Co-Pilots’は、細胞から病理のスペクトル全体に微妙な視聴覚組織の手がかりを採掘し、包括的なレポートを生成し、複雑なユーザークエリに応答する能力を示しています。
データのスケールは劇的に急増し、数十から数百万のマルチギガピクセルの組織画像に成長していますが、これらのモデルの訓練可能なパラメーターの数は数十億に増加しています。
重要な問題は残っています。生成的で多目的AIのこの新しい波は、臨床診断をどのように変換しますか?
この記事では、これらの革新の真の可能性と臨床診療への統合を探ります。
病理学における基礎モデルの急速な進歩をレビューし、それらのアプリケーションと重要性を明確にします。
より正確には、基礎モデルの定義そのものを調べ、基礎、一般、または多目的にするものを特定し、計算病理への影響を評価します。
さらに、開発と評価に関連する独自の課題に対処します。
これらのモデルは、例外的な予測機能と生成機能を実証していますが、評価基準を強化し、広範囲にわたる臨床採用を促進するためには、グローバルなベンチマークを確立することが重要です。
計算病理学では、フロンティアAIのより広い影響は、最終的に広範な採用と社会的受け入れに依存しています。
直接的な公共の暴露は厳密に必要ではありませんが、誤解を払拭し、信頼を築き、規制支援を確保するための強力なツールのままです。

要約(オリジナル)

From self-supervised, vision-only models to contrastive visual-language frameworks, computational pathology has rapidly evolved in recent years. Generative AI ‘co-pilots’ now demonstrate the ability to mine subtle, sub-visual tissue cues across the cellular-to-pathology spectrum, generate comprehensive reports, and respond to complex user queries. The scale of data has surged dramatically, growing from tens to millions of multi-gigapixel tissue images, while the number of trainable parameters in these models has risen to several billion. The critical question remains: how will this new wave of generative and multi-purpose AI transform clinical diagnostics? In this article, we explore the true potential of these innovations and their integration into clinical practice. We review the rapid progress of foundation models in pathology, clarify their applications and significance. More precisely, we examine the very definition of foundational models, identifying what makes them foundational, general, or multipurpose, and assess their impact on computational pathology. Additionally, we address the unique challenges associated with their development and evaluation. These models have demonstrated exceptional predictive and generative capabilities, but establishing global benchmarks is crucial to enhancing evaluation standards and fostering their widespread clinical adoption. In computational pathology, the broader impact of frontier AI ultimately depends on widespread adoption and societal acceptance. While direct public exposure is not strictly necessary, it remains a powerful tool for dispelling misconceptions, building trust, and securing regulatory support.

arxiv情報

著者 Mohsin Bilal,Aadam,Manahil Raza,Youssef Altherwy,Anas Alsuhaibani,Abdulrahman Abduljabbar,Fahdah Almarshad,Paul Golding,Nasir Rajpoot
発行日 2025-02-12 11:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Foundation Models in Computational Pathology: A Review of Challenges, Opportunities, and Impact はコメントを受け付けていません