VideoPDE: Unified Generative PDE Solving via Video Inpainting Diffusion Models

要約

ビデオインペインティング拡散トランスモデルを使用して、部分微分方程式(PDE)を解くための統一されたフレームワークを提示します。
完全または部分的な観察下での順方向または逆問題の特殊な戦略を考案する既存の方法とは異なり、私たちのアプローチは、単一の柔軟な生成フレームワークの下でこれらのタスクを統合します。
具体的には、PDE解決を一般化されたインポインティングの問題としてリキャストします。たとえば、将来の状態の不足している時空情報を初期条件から推測するものとして、前方予測を扱います。
この目的のために、既知のデータの任意のパターンを条件として、時間と空間にわたって欠損値を推測するトランスベースのアーキテクチャを設計します。
私たちの方法では、階層モデリングを通じて計算効率を高めながら、微調整された高忠実度のインピンティングとコンディショニングのピクセル空間ビデオ拡散モデルを提案しています。
広範な実験では、ビデオのインペインティングベースの拡散モデルが、幅広いPDEと問題のセットアップにわたって正確で汎用性の高いソリューションを提供し、最先端のベースラインを上回ることが示されています。

要約(オリジナル)

We present a unified framework for solving partial differential equations (PDEs) using video-inpainting diffusion transformer models. Unlike existing methods that devise specialized strategies for either forward or inverse problems under full or partial observation, our approach unifies these tasks under a single, flexible generative framework. Specifically, we recast PDE-solving as a generalized inpainting problem, e.g., treating forward prediction as inferring missing spatiotemporal information of future states from initial conditions. To this end, we design a transformer-based architecture that conditions on arbitrary patterns of known data to infer missing values across time and space. Our method proposes pixel-space video diffusion models for fine-grained, high-fidelity inpainting and conditioning, while enhancing computational efficiency through hierarchical modeling. Extensive experiments show that our video inpainting-based diffusion model offers an accurate and versatile solution across a wide range of PDEs and problem setups, outperforming state-of-the-art baselines.

arxiv情報

著者 Edward Li,Zichen Wang,Jiahe Huang,Jeong Joon Park
発行日 2025-06-16 17:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | VideoPDE: Unified Generative PDE Solving via Video Inpainting Diffusion Models はコメントを受け付けていません

UltraZoom: Generating Gigapixel Images from Regular Photos

要約

ハンドヘルドの電話写真など、さりげなくキャプチャされた入力からオブジェクトのギガピクセル解像度画像を生成するためのシステムであるUltrazoomを提示します。
フルショットの画像(グローバル、低極性)と1つ以上のクローズアップ(ローカル、ハイデテール)を考えると、超Zoom Upsaleフル画像を縮小して、クローズアップ例の細かい詳細とスケールに合わせます。
これを達成するために、クローズアップから吸気ごとのペアデータセットを構築し、オブジェクト固有の低から高度な解像度マッピングを学習するために、前処理された生成モデルを適応させます。
推論では、モデルを完全な画像にスライディングウィンドウファッションで適用します。
これらのペアを構築することは非自明です。スケールの推定と分解アライメントのために、完全な画像内にクローズアップを登録する必要があります。
カジュアルな野生のキャプチャで任意の資料に登録するためのシンプルで堅牢な方法を紹介します。
一緒に、これらのコンポーネントは、シームレスなパンを可能にし、オブジェクト全体をズームするシステムを形成し、最小入力から一貫した光線上のギガピクセル画像を生成します。

要約(オリジナル)

We present UltraZoom, a system for generating gigapixel-resolution images of objects from casually captured inputs, such as handheld phone photos. Given a full-shot image (global, low-detail) and one or more close-ups (local, high-detail), UltraZoom upscales the full image to match the fine detail and scale of the close-up examples. To achieve this, we construct a per-instance paired dataset from the close-ups and adapt a pretrained generative model to learn object-specific low-to-high resolution mappings. At inference, we apply the model in a sliding window fashion over the full image. Constructing these pairs is non-trivial: it requires registering the close-ups within the full image for scale estimation and degradation alignment. We introduce a simple, robust method for getting registration on arbitrary materials in casual, in-the-wild captures. Together, these components form a system that enables seamless pan and zoom across the entire object, producing consistent, photorealistic gigapixel imagery from minimal input.

arxiv情報

著者 Jingwei Ma,Vivek Jayaram,Brian Curless,Ira Kemelmacher-Shlizerman,Steven M. Seitz
発行日 2025-06-16 17:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | UltraZoom: Generating Gigapixel Images from Regular Photos はコメントを受け付けていません

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

要約

Vision-Language-action(VLA)モデルの最近の進歩は、世界の知識と推論能力を活用することにより、エンドツーエンドの自律運転の有望を示しています。
ただし、現在のVLAモデルは、物理的に実行不可能なアクション出力、複雑なモデル構造、または不必要に長い推論に苦労することがよくあります。
この論文では、エンドツーエンドの自律運転の単一の自己回帰生成モデル内で推論とアクション生成を統合する新しいVLAモデルであるAutovlaを提案します。
Autovlaは、生の視覚入力と言語の指示から直接セマンティック推論と軌道計画を実行します。
連続軌道を離散的で実行可能なアクションにトークン化し、言語モデルへの直接統合を可能にします。
トレーニングには、モデルにデュアル思考モードを装備するために、監視された微調整を採用しています:高速思考(軌跡のみ)とゆっくりと思考(考え方の推論で強化されています)。
計画のパフォーマンスと効率をさらに向上させるために、グループ相対ポリシーの最適化(GRPO)に基づいた強化微調整方法を導入し、簡単なシナリオで不必要な推論を減らします。
Nuplan、Nuscenes、Waymo、およびCarlaを含む、現実世界およびシミュレートされたデータセットとベンチマーク全体の広範な実験は、オープンループ設定と閉ループ設定の両方でAutovlaの競争力を示しています。
定性的な結果は、多様なシナリオにおけるAutoVLAの適応的推論と正確な計画機能を紹介します。

要約(オリジナル)

Recent advancements in Vision-Language-Action (VLA) models have shown promise for end-to-end autonomous driving by leveraging world knowledge and reasoning capabilities. However, current VLA models often struggle with physically infeasible action outputs, complex model structures, or unnecessarily long reasoning. In this paper, we propose AutoVLA, a novel VLA model that unifies reasoning and action generation within a single autoregressive generation model for end-to-end autonomous driving. AutoVLA performs semantic reasoning and trajectory planning directly from raw visual inputs and language instructions. We tokenize continuous trajectories into discrete, feasible actions, enabling direct integration into the language model. For training, we employ supervised fine-tuning to equip the model with dual thinking modes: fast thinking (trajectory-only) and slow thinking (enhanced with chain-of-thought reasoning). To further enhance planning performance and efficiency, we introduce a reinforcement fine-tuning method based on Group Relative Policy Optimization (GRPO), reducing unnecessary reasoning in straightforward scenarios. Extensive experiments across real-world and simulated datasets and benchmarks, including nuPlan, nuScenes, Waymo, and CARLA, demonstrate the competitive performance of AutoVLA in both open-loop and closed-loop settings. Qualitative results showcase the adaptive reasoning and accurate planning capabilities of AutoVLA in diverse scenarios.

arxiv情報

著者 Zewei Zhou,Tianhui Cai,Seth Z. Zhao,Yun Zhang,Zhiyu Huang,Bolei Zhou,Jiaqi Ma
発行日 2025-06-16 17:58:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning はコメントを受け付けていません

Touch begins where vision ends: Generalizable policies for contact-rich manipulation

要約

データ駆動型のアプローチは、正確な操作と闘っています。
模倣学習には、多くの困難なデモンストレーションが必要ですが、強化学習には脆い、ゼネラル化できないポリシーが得られます。
Visuotactile Local(Vital)ポリシー学習を紹介します。これは、2つのフェーズに分解することで微調整された操作タスクを解決するフレームワークを紹介します。到達段階、Vision-Languageモデル(VLM)がシーンレベルの推論を可能にし、関心のあるオブジェクトをローカライズし、局所的なインタラクションフェーズを使用して、再利用可能な攻撃的なポリシーを使用します。
このアプローチは、シーンのコンテキストは変化しますが、低レベルの相互作用はタスクインスタンス全体で一貫しているという観察によって動機付けられています。
標準的な設定で一度ローカルポリシーをトレーニングすることにより、彼らはローカライズした通過戦略を介して一般化することができます。
Vitalは、目に見えない環境での接触豊富なタスクで約90%の成功を達成し、ディストラクタに対して堅牢です。
Vitalの有効性は、3つの重要な洞察に由来しています。(1)セグメンテーションの基礎モデルにより、動作クローニングを介したトレーニングの堅牢な視覚エンコーダが可能になります。
(2)これらのエンコーダーは、残留RLを使用して学習したポリシーの一般化可能性を改善します。
(3)触覚センシングは、接触豊富なタスクのパフォーマンスを大幅に向上させます。
アブレーション研究は、これらの洞察のそれぞれを検証し、Vitalが高レベルのVLMとうまく統合し、堅牢で再利用可能な低レベルのスキルを可能にすることを実証します。
結果とビデオはhttps://vitalprecise.github.ioで入手できます。

要約(オリジナル)

Data-driven approaches struggle with precise manipulation; imitation learning requires many hard-to-obtain demonstrations, while reinforcement learning yields brittle, non-generalizable policies. We introduce VisuoTactile Local (ViTaL) policy learning, a framework that solves fine-grained manipulation tasks by decomposing them into two phases: a reaching phase, where a vision-language model (VLM) enables scene-level reasoning to localize the object of interest, and a local interaction phase, where a reusable, scene-agnostic ViTaL policy performs contact-rich manipulation using egocentric vision and tactile sensing. This approach is motivated by the observation that while scene context varies, the low-level interaction remains consistent across task instances. By training local policies once in a canonical setting, they can generalize via a localize-then-execute strategy. ViTaL achieves around 90% success on contact-rich tasks in unseen environments and is robust to distractors. ViTaL’s effectiveness stems from three key insights: (1) foundation models for segmentation enable training robust visual encoders via behavior cloning; (2) these encoders improve the generalizability of policies learned using residual RL; and (3) tactile sensing significantly boosts performance in contact-rich tasks. Ablation studies validate each of these insights, and we demonstrate that ViTaL integrates well with high-level VLMs, enabling robust, reusable low-level skills. Results and videos are available at https://vitalprecise.github.io.

arxiv情報

著者 Zifan Zhao,Siddhant Haldar,Jinda Cui,Lerrel Pinto,Raunaq Bhirangi
発行日 2025-06-16 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Touch begins where vision ends: Generalizable policies for contact-rich manipulation はコメントを受け付けていません

Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value

要約

拡散モデルは、生成モデリングで顕著な成功を収めています。
より安定したトレーニングにもかかわらず、拡散モデルの喪失は、最適な値は通常ゼロではなく未知であり、大きな最適損失と不十分なモデル容量の間の混乱をもたらすため、絶対的なデータフィット品質を示すものではありません。
この作業では、拡散モデルを診断および改善するための最適な損失値を推定する必要性を提唱します。
最初に、拡散モデルの統一された定式化の下で閉じた形で最適な損失を導き出し、分散とバイアスを適切に制御できる大規模なデータセットにスケーラブルにスケーラブルにできる確率的バリアントを含む効果的な推定器を開発します。
このツールを使用すると、主流の拡散モデルバリアントのトレーニング品質を診断するための固有のメトリックのロックを解除し、最適な損失に基づいてよりパフォーマンスのあるトレーニングスケジュールを開発します。
さらに、120mから1.5Bのパラメーターを持つモデルを使用して、実際のトレーニング損失から最適な損失を減算した後、電力法則がよりよく実証されていることがわかり、拡散モデルのスケーリング法則を調査するためのより原則的な設定を示唆しています。

要約(オリジナル)

Diffusion models have achieved remarkable success in generative modeling. Despite more stable training, the loss of diffusion models is not indicative of absolute data-fitting quality, since its optimal value is typically not zero but unknown, leading to confusion between large optimal loss and insufficient model capacity. In this work, we advocate the need to estimate the optimal loss value for diagnosing and improving diffusion models. We first derive the optimal loss in closed form under a unified formulation of diffusion models, and develop effective estimators for it, including a stochastic variant scalable to large datasets with proper control of variance and bias. With this tool, we unlock the inherent metric for diagnosing the training quality of mainstream diffusion model variants, and develop a more performant training schedule based on the optimal loss. Moreover, using models with 120M to 1.5B parameters, we find that the power law is better demonstrated after subtracting the optimal loss from the actual training loss, suggesting a more principled setting for investigating the scaling law for diffusion models.

arxiv情報

著者 Yixian Xu,Shengjie Luo,Liwei Wang,Di He,Chang Liu
発行日 2025-06-16 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value はコメントを受け付けていません

PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images

要約

カメラや人間のポーズ情報のない明確な被験者のカジュアルにキャプチャされた画像からアニメーション可能な3Dヒトを再構築することは、見解、閉塞、および構造的事前層の欠如のために、実用的でありながら挑戦的な作業です。
最適化ベースの方法では、単眼またはマルチビューのビデオから高忠実度の結果を生成できますが、正確なポーズ推定とゆっくりとした反復最適化が必要であり、制約のないシナリオのスケーラビリティを制限します。
最近のフィードフォワードアプローチにより、効率的なシングルイメージの再構築が可能になりますが、複数の入力画像を効果的に活用して曖昧さを低下させ、再構築の精度を向上させるのに苦労しています。
これらの課題に対処するために、1つまたは複数のカジュアルにキャプチャされたポーズフリーの画像から数秒で高品質の3Dアバターを生成する大規模な人間の再構成モデ​​ルであるPF-LHMを提案します。
私たちのアプローチでは、マルチモーダルの注意を払って階層的な幾何学的なポイント機能とマルチビューイメージ機能を融合する効率的なエンコーダデコーダーポイントイメージトランスアーキテクチャを紹介します。
融合した機能は、3Dガウススプラットを使用して表される詳細なジオメトリと外観を回復するためにデコードされています。
実際のデータセットと合成データセットの両方での広範な実験は、私たちの方法がシングルイメージとマルチイメージ3Dの人間の再構成を統合し、カメラや人間のポーズ注釈を必要とせずに高忠実でアニメーション性の3Dヒトアバターを達成することを示しています。
コードとモデルは一般に公開されます。

要約(オリジナル)

Reconstructing an animatable 3D human from casually captured images of an articulated subject without camera or human pose information is a practical yet challenging task due to view misalignment, occlusions, and the absence of structural priors. While optimization-based methods can produce high-fidelity results from monocular or multi-view videos, they require accurate pose estimation and slow iterative optimization, limiting scalability in unconstrained scenarios. Recent feed-forward approaches enable efficient single-image reconstruction but struggle to effectively leverage multiple input images to reduce ambiguity and improve reconstruction accuracy. To address these challenges, we propose PF-LHM, a large human reconstruction model that generates high-quality 3D avatars in seconds from one or multiple casually captured pose-free images. Our approach introduces an efficient Encoder-Decoder Point-Image Transformer architecture, which fuses hierarchical geometric point features and multi-view image features through multimodal attention. The fused features are decoded to recover detailed geometry and appearance, represented using 3D Gaussian splats. Extensive experiments on both real and synthetic datasets demonstrate that our method unifies single- and multi-image 3D human reconstruction, achieving high-fidelity and animatable 3D human avatars without requiring camera and human pose annotations. Code and models will be released to the public.

arxiv情報

著者 Lingteng Qiu,Peihao Li,Qi Zuo,Xiaodong Gu,Yuan Dong,Weihao Yuan,Siyu Zhu,Xiaoguang Han,Guanying Chen,Zilong Dong
発行日 2025-06-16 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images はコメントを受け付けていません

How Much is Enough? The Diminishing Returns of Tokenization Training Data

要約

自然言語処理における重要な初期ステップであるトークン化は、トークン化アルゴリズム、語彙サイズ、トークン化戦略、推論戦略、トレーニングデータコーパスなど、いくつかの重要なパラメーターによって支配されます。
このペーパーでは、見過ごされがちなハイパーパラメーターであるトークン剤トレーニングデータサイズの影響を調査します。
1GBから900GBの範囲の英語トレーニングデータを使用して、さまざまな語彙サイズでBPE、Unigramlm、およびワードピーストークンザーをトレーニングします。
私たちの調査結果は、トレーニングデータサイズが約150GBを超えて増加するにつれてリターンが減少することを明らかにし、追加データを通じて達成可能なトークン化品質の改善の実用的な制限を示唆しています。
この現象を分析し、飽和効果をトークン化前段階によって導入された制約に起因します。
次に、英語から類型的に遠い言語であるロシア語のデータを実験することにより、これらの発見が一般化できる程度を示します。
ロシア語のテキストでは、200GBのデータからトークナイザーをトレーニングした後、収益が減少することを観察します。これは、英語でトレーニングするときよりも約33%多いです。
これらの結果は、大きなコーパスでのトレーニングに必要な計算を削減することにより、トークン化プロセスを最適化するための貴重な洞察を提供し、トークン化アルゴリズムの将来の研究のための有望な方向性を提案します。

要約(オリジナル)

Tokenization, a crucial initial step in natural language processing, is governed by several key parameters, such as the tokenization algorithm, vocabulary size, pre-tokenization strategy, inference strategy, and training data corpus. This paper investigates the impact of an often-overlooked hyperparameter, tokenizer training data size. We train BPE, UnigramLM, and WordPiece tokenizers across various vocabulary sizes using English training data ranging from 1GB to 900GB. Our findings reveal diminishing returns as training data size increases beyond roughly 150GB, suggesting a practical limit to the improvements in tokenization quality achievable through additional data. We analyze this phenomenon and attribute the saturation effect to constraints introduced by the pre-tokenization stage. We then demonstrate the extent to which these findings can generalize by experimenting on data in Russian, a language typologically distant from English. For Russian text, we observe diminishing returns after training a tokenizer from 200GB of data, which is approximately 33% more than when training on English. These results provide valuable insights for optimizing the tokenization process by reducing the compute required for training on large corpora and suggest promising directions for future research in tokenization algorithms.

arxiv情報

著者 Varshini Reddy,Craig W. Schmidt,Yuval Pinter,Chris Tanner
発行日 2025-06-16 16:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL | How Much is Enough? The Diminishing Returns of Tokenization Training Data はコメントを受け付けていません

Improving Surgical Risk Prediction Through Integrating Automated Body Composition Analysis: a Retrospective Trial on Colectomy Surgery

要約

目的:CTスキャンから術前の体組成メトリックが自動的に抽出されたかどうかを評価することで、単独または既存のリスク予測因子と組み合わされた単独または既存のリスク予測因子と組み合わせた結腸切除後の術後転帰を予測できるかどうかを評価する。
主な結果と測定:主な結果は、結腸切除後の1年間の全死因死亡率の予測パフォーマンスでした。
1年間の追跡調査を伴うCox比例ハザードモデルが使用され、パフォーマンスが一致インデックス(C-Index)と統合Brierスコア(IBS)を使用して評価されました。
二次的な結果には、術後の合併症、予定外の再入院、輸血、および重度の感染が含まれ、ロジスティック回帰のAUCおよびBrierスコアを使用して評価されました。
個々のCT由来の体組成メトリックと結果の間の関連性(または)のオッズ比(または)。
骨格筋領域、密度、脂肪領域、および組織間メトリックなど、複数の椎骨レベルにわたって術前CTSから300を超える特徴が抽出されました。
NSQIPスコアは、2012年以降、すべての手術で利用できました。

要約(オリジナル)

Objective: To evaluate whether preoperative body composition metrics automatically extracted from CT scans can predict postoperative outcomes after colectomy, either alone or combined with clinical variables or existing risk predictors. Main outcomes and measures: The primary outcome was the predictive performance for 1-year all-cause mortality following colectomy. A Cox proportional hazards model with 1-year follow-up was used, and performance was evaluated using the concordance index (C-index) and Integrated Brier Score (IBS). Secondary outcomes included postoperative complications, unplanned readmission, blood transfusion, and severe infection, assessed using AUC and Brier Score from logistic regression. Odds ratios (OR) described associations between individual CT-derived body composition metrics and outcomes. Over 300 features were extracted from preoperative CTs across multiple vertebral levels, including skeletal muscle area, density, fat areas, and inter-tissue metrics. NSQIP scores were available for all surgeries after 2012.

arxiv情報

著者 Hanxue Gu,Yaqian Chen,Jisoo Lee,Diego Schaps,Regina Woody,Roy Colglazier,Maciej A. Mazurowski,Christopher Mantyh
発行日 2025-06-16 15:52:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Improving Surgical Risk Prediction Through Integrating Automated Body Composition Analysis: a Retrospective Trial on Colectomy Surgery はコメントを受け付けていません

Towards a Cascaded LLM Framework for Cost-effective Human-AI Decision-Making

要約

効果的な人間と意思決定のバランスは、3つの重要な要素をバランスさせます。\ textit {正しさ}の予測、知識と推論の複雑さの\ textit {cost}、および\ textit {abstain}の回答を自動化するか、人間の専門家を巻き込むかについての自信。
この作業では、複数の専門知識の層にタスクを適応的に委任するカスケードLLM決定フレームワークを提示します。最初の候補者の回答の基本モデル、より有能で知識豊富な(ただし費用がかかる)大規模なモデル、およびモデルがカスケードを控えるときの人間の専門家です。
私たちの方法は2つの段階で進行します。
まず、延期ポリシーは、ベースモデルの回答を受け入れるか、信頼性スコアに基づいて大きなモデルでそれを再生するかを決定します。
第二に、棄権ポリシーは、カスケードモデルの応答が十分に確実であるかどうか、または人間の介入を必要とするかどうかを決定します。
さらに、人間のフィードバックを活用して時間の経過とともに意思決定の質を向上させることができるオンライン学習メカニズムをフレームワークに組み込みます。
このアプローチは、一般的な質問(アークイエサとアークチャレンジ)および医学的質問(MedqaとMedMcqa)に対するこのアプローチを実証します。
私たちの結果は、私たちのカスケード戦略は、ほとんどの場合、コストを削減し、棄権を処理する原則的な方法を提供しながら、単一モデルのベースラインよりも優れていることを示しています。

要約(オリジナル)

Effective human-AI decision-making balances three key factors: the \textit{correctness} of predictions, the \textit{cost} of knowledge and reasoning complexity, and the confidence about whether to \textit{abstain} automated answers or involve human experts. In this work, we present a cascaded LLM decision framework that adaptively delegates tasks across multiple tiers of expertise — a base model for initial candidate answers, a more capable and knowledgeable (but costlier) large model, and a human expert for when the model cascade abstains. Our method proceeds in two stages. First, a deferral policy determines whether to accept the base model’s answer or regenerate it with the large model based on the confidence score. Second, an abstention policy decides whether the cascade model response is sufficiently certain or requires human intervention. Moreover, we incorporate an online learning mechanism in the framework that can leverage human feedback to improve decision quality over time. We demonstrate this approach to general question-answering (ARC-Easy and ARC-Challenge) and medical question-answering (MedQA and MedMCQA). Our results show that our cascaded strategy outperforms in most cases single-model baselines in accuracy while reducing cost and providing a principled way to handle abstentions.

arxiv情報

著者 Claudio Fanconi,Mihaela van der Schaar
発行日 2025-06-16 14:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards a Cascaded LLM Framework for Cost-effective Human-AI Decision-Making はコメントを受け付けていません

Foundation Models in Medical Imaging — A Review and Outlook

要約

ファンデーションモデル(FMS)は、非標識データの大規模なコレクションから学習することにより、医療画像の分析方法を変えています。
手動で注釈された例に依存する代わりに、FMSは、後に追加の監督がほとんどない特定の臨床タスクに適応できる汎用の視覚的特徴を学習するために事前に訓練されています。
このレビューでは、FMが病理学、放射線学、および眼科で開発および適用されている方法を調べ、150を超える研究からの証拠に基づいています。
モデルアーキテクチャ、自己監視学習方法、下流適応のための戦略など、FMパイプラインのコアコンポーネントを説明します。
また、各イメージングドメインでFMがどのように使用されているかを確認し、アプリケーション全体で設計の選択肢を比較します。
最後に、将来の研究を導くための重要な課題と未解決の質問について説明します。

要約(オリジナル)

Foundation models (FMs) are changing the way medical images are analyzed by learning from large collections of unlabeled data. Instead of relying on manually annotated examples, FMs are pre-trained to learn general-purpose visual features that can later be adapted to specific clinical tasks with little additional supervision. In this review, we examine how FMs are being developed and applied in pathology, radiology, and ophthalmology, drawing on evidence from over 150 studies. We explain the core components of FM pipelines, including model architectures, self-supervised learning methods, and strategies for downstream adaptation. We also review how FMs are being used in each imaging domain and compare design choices across applications. Finally, we discuss key challenges and open questions to guide future research.

arxiv情報

著者 Vivien van Veldhuizen,Vanessa Botha,Chunyao Lu,Melis Erdal Cesur,Kevin Groot Lipman,Edwin D. de Jong,Hugo Horlings,Clárisa I. Sanchez,Cees G. M. Snoek,Lodewyk Wessels,Ritse Mann,Eric Marcus,Jonas Teuwen
発行日 2025-06-16 10:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Foundation Models in Medical Imaging — A Review and Outlook はコメントを受け付けていません