PSA-MIL: A Probabilistic Spatial Attention-Based Multiple Instance Learning for Whole Slide Image Classification

要約

全体のスライド画像(WSI)は、医療診断で広く使用されている高解像度のデジタルスキャンです。
通常、WSI分類は、複数のインスタンス学習(MIL)を使用してアプローチされます。ここでは、スライドが相互接続されたインスタンスとして扱われたタイルに分割されます。
注意ベースのMILメソッドは、最も有益なタイルを特定することを目的としていますが、それらはそれらの間の空間的関係を完全に活用することに失敗することが多く、正確な診断に不可欠な複雑な組織構造を見落とす可能性があります。
この制限に対処するために、事後分布としての確率的解釈の中で定式化された学習可能な距離測定された事前に空間的コンテキストを注意メカニズムに統合する新しい注意ベースのMILフレームワークである、確率的空間的注意MIL(PSA-MIL)を提案します。
この定式化により、トレーニング中の空間関係の動的推論が可能になり、以前のアプローチによってしばしば課される事前定義された仮定の必要性が排除されます。
さらに、事後の空間的剪定戦略を提案し、自己attentionの二次の複雑さを効果的に減らします。
空間モデリングをさらに強化するために、注意ヘッド間の変動を促進する多様性の損失を導入し、それぞれが異なる空間表現をキャプチャするようにします。
一緒に、PSA-MILは、定義された制約を超えて、よりデータ駆動型の適応的な空間コンテキストの統合を可能にします。
コンテキストと非文脈の両方のベースラインで最先端のパフォーマンスを達成し、計算コストを大幅に削減します。

要約(オリジナル)

Whole Slide Images (WSIs) are high-resolution digital scans widely used in medical diagnostics. WSI classification is typically approached using Multiple Instance Learning (MIL), where the slide is partitioned into tiles treated as interconnected instances. While attention-based MIL methods aim to identify the most informative tiles, they often fail to fully exploit the spatial relationships among them, potentially overlooking intricate tissue structures crucial for accurate diagnosis. To address this limitation, we propose Probabilistic Spatial Attention MIL (PSA-MIL), a novel attention-based MIL framework that integrates spatial context into the attention mechanism through learnable distance-decayed priors, formulated within a probabilistic interpretation of self-attention as a posterior distribution. This formulation enables a dynamic inference of spatial relationships during training, eliminating the need for predefined assumptions often imposed by previous approaches. Additionally, we suggest a spatial pruning strategy for the posterior, effectively reducing self-attention’s quadratic complexity. To further enhance spatial modeling, we introduce a diversity loss that encourages variation among attention heads, ensuring each captures distinct spatial representations. Together, PSA-MIL enables a more data-driven and adaptive integration of spatial context, moving beyond predefined constraints. We achieve state-of-the-art performance across both contextual and non-contextual baselines, while significantly reducing computational costs.

arxiv情報

著者 Sharon Peled,Yosef E. Maruvka,Moti Freiman
発行日 2025-03-20 16:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PSA-MIL: A Probabilistic Spatial Attention-Based Multiple Instance Learning for Whole Slide Image Classification はコメントを受け付けていません

Repurposing Stable Diffusion Attention for Training-Free Unsupervised Interactive Segmentation

要約

インタラクティブポイントプロンプトベースの画像セグメンテーションの最近の進捗により、高品質のセマンティックラベルを取得するための手動の努力を大幅に削減できます。
最先端の非監視なしの方法は、自己監督の事前訓練モデルを使用して、プロンプトベースのセグメンテーションモデルのトレーニングに使用される疑似ラベルを取得します。
この論文では、安定した拡散の自己立文に基づいて、監視されていない訓練のない新しいアプローチを提案します。
自己関節のテンソルをマルコフ遷移演算子として解釈し、マルコフ連鎖を繰り返し構築することができます。
マルコフ連鎖に沿った必要な数の反復数をピクセルごとにカウントして相対的な確率のしきい値に到達すると、マルコフ項目マップが得られます。これは単にマルコフマップと呼ばれます。
生の注意マップと比較して、提案されたマルコフマップのノイズが少なく、セマンティックな境界が鋭く、セマンティックに類似した領域内でより均一な値があることを示します。
マルコフマップをシンプルでありながら効果的な切り捨てられた最近隣接フレームワークに統合して、インタラクティブポイントプロンプトベースのセグメンテーションを取得します。
トレーニングなしであるにもかかわらず、私たちのアプローチは、クリック数(NOC)の点で優れた結果をもたらすことを実験的に示しています。
コードはhttps://github.com/mkarmann/m2n2で入手できます。

要約(オリジナル)

Recent progress in interactive point prompt based Image Segmentation allows to significantly reduce the manual effort to obtain high quality semantic labels. State-of-the-art unsupervised methods use self-supervised pre-trained models to obtain pseudo-labels which are used in training a prompt-based segmentation model. In this paper, we propose a novel unsupervised and training-free approach based solely on the self-attention of Stable Diffusion. We interpret the self-attention tensor as a Markov transition operator, which enables us to iteratively construct a Markov chain. Pixel-wise counting of the required number of iterations along the Markov chain to reach a relative probability threshold yields a Markov-iteration-map, which we simply call a Markov-map. Compared to the raw attention maps, we show that our proposed Markov-map has less noise, sharper semantic boundaries and more uniform values within semantically similar regions. We integrate the Markov-map in a simple yet effective truncated nearest neighbor framework to obtain interactive point prompt based segmentation. Despite being training-free, we experimentally show that our approach yields excellent results in terms of Number of Clicks (NoC), even outperforming state-of-the-art training based unsupervised methods in most of the datasets. Code is available at https://github.com/mkarmann/m2n2.

arxiv情報

著者 Markus Karmann,Onay Urfalioglu
発行日 2025-03-20 16:15:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Repurposing Stable Diffusion Attention for Training-Free Unsupervised Interactive Segmentation はコメントを受け付けていません

SceneMI: Motion In-betweening for Modeling Human-Scene Interactions

要約

人間の相互作用(HSI)のモデリングは、日常の人間の行動を理解してシミュレートするために不可欠です。
生成モデリングを利用する最近のアプローチは、このドメインで進歩しました。
ただし、実際のアプリケーションの制御性と柔軟性は限られています。
これらの課題に対処するために、HSIモデリングの問題を、より扱いやすく実用的なタスクであるHSIモデリングの問題を、より扱いやすく実用的なタスクであると再定式化することを提案します。
3Dシーンでのキーフレームガイド付き文字アニメーションや不完全なHSIデータのモーション品質の向上など、いくつかの実用的なアプリケーションをサポートするフレームワークであるScenemiを紹介します。
Scenemiは、グローバルおよびローカルシーンのコンテキストを包括的にエンコードするために、デュアルシーン記述子を採用しています。
さらに、我々のフレームワークは、拡散モデルの固有の除去の性質を活用して、騒々しいキーフレームを一般化します。
実験結果は、Noisy IMUセンサーとスマートフォンによってモーションとシーンが獲得される現実世界のGimoデータセットのシーンを認識したキーフレームにおけるシーンの有効性を示しています。
さらに、単眼ビデオからのHSI再構築におけるScenemiの適用性を紹介します。

要約(オリジナル)

Modeling human-scene interactions (HSI) is essential for understanding and simulating everyday human behaviors. Recent approaches utilizing generative modeling have made progress in this domain; however, they are limited in controllability and flexibility for real-world applications. To address these challenges, we propose reformulating the HSI modeling problem as Scene-aware Motion In-betweening — a more tractable and practical task. We introduce SceneMI, a framework that supports several practical applications, including keyframe-guided character animation in 3D scenes and enhancing the motion quality of imperfect HSI data. SceneMI employs dual scene descriptors to comprehensively encode global and local scene context. Furthermore, our framework leverages the inherent denoising nature of diffusion models to generalize on noisy keyframes. Experimental results demonstrate SceneMI’s effectiveness in scene-aware keyframe in-betweening and generalization to the real-world GIMO dataset, where motions and scenes are acquired by noisy IMU sensors and smartphones. We further showcase SceneMI’s applicability in HSI reconstruction from monocular videos.

arxiv情報

著者 Inwoo Hwang,Bing Zhou,Young Min Kim,Jian Wang,Chuan Guo
発行日 2025-03-20 16:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SceneMI: Motion In-betweening for Modeling Human-Scene Interactions はコメントを受け付けていません

Unleashing Vecset Diffusion Model for Fast Shape Generation

要約

3D形状生成は、特にVECSET拡散モデル(VDM)を通じて、いわゆる「ネイティブ」3D拡散の開発を通じて大幅に栄えました。
最近の進歩により、高解像度の3D形状の生成において有望な結果が示されていますが、VDMは依然として高速生成に苦労しています。
拡散サンプリングの加速だけでなく、VDMでのVAEデコードが不足しているため、以前の作品で採点されていない領域でも、課題が存在します。
これらの課題に対処するために、VDMでVAEとDITの両方を加速するための体系的なフレームワークであるFlashVDMを提示します。
DITの場合、FlashVDMは、5つの5つの推論ステップと同等の品質を備えた柔軟な拡散サンプリングを有効にします。これは、新しく導入された進行性の蒸留との一貫性の蒸留を安定化することで可能になります。
VAEについては、適応性のあるKV選択、階層ボリュームデコード、効率的なネットワーク設計を備えたLightning Vecsetデコーダーを導入します。
ボリュームのベクセットの局所性と形状表面のスパース性を活用することにより、デコーダーはフロップを大幅に低下させ、全体的なデコードオーバーヘッドを最小限に抑えます。
FlashVDMをHunyuan3D-2に適用して、Hunyuan3D-2ターボを取得します。
体系的な評価を通じて、私たちのモデルは既存の高速3D生成方法を大幅に上回り、最先端に同等のパフォーマンスを達成しながら、推論時間を再建のために45倍以上、世代のために32xを削減することを示します。
コードとモデルはhttps://github.com/tencent/flashvdmで入手できます。

要約(オリジナル)

3D shape generation has greatly flourished through the development of so-called ‘native’ 3D diffusion, particularly through the Vecset Diffusion Model (VDM). While recent advancements have shown promising results in generating high-resolution 3D shapes, VDM still struggles with high-speed generation. Challenges exist because of difficulties not only in accelerating diffusion sampling but also VAE decoding in VDM, areas under-explored in previous works. To address these challenges, we present FlashVDM, a systematic framework for accelerating both VAE and DiT in VDM. For DiT, FlashVDM enables flexible diffusion sampling with as few as 5 inference steps and comparable quality, which is made possible by stabilizing consistency distillation with our newly introduced Progressive Flow Distillation. For VAE, we introduce a lightning vecset decoder equipped with Adaptive KV Selection, Hierarchical Volume Decoding, and Efficient Network Design. By exploiting the locality of the vecset and the sparsity of shape surface in the volume, our decoder drastically lowers FLOPs, minimizing the overall decoding overhead. We apply FlashVDM to Hunyuan3D-2 to obtain Hunyuan3D-2 Turbo. Through systematic evaluation, we show that our model significantly outperforms existing fast 3D generation methods, achieving comparable performance to the state-of-the-art while reducing inference time by over 45x for reconstruction and 32x for generation. Code and models are available at https://github.com/Tencent/FlashVDM.

arxiv情報

著者 Zeqiang Lai,Yunfei Zhao,Zibo Zhao,Haolin Liu,Fuyun Wang,Huiwen Shi,Xianghui Yang,Qinxiang Lin,Jinwei Huang,Yuhong Liu,Jie Jiang,Chunchao Guo,Xiangyu Yue
発行日 2025-03-20 16:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Unleashing Vecset Diffusion Model for Fast Shape Generation はコメントを受け付けていません

Unifying 2D and 3D Vision-Language Understanding

要約

3Dビジョン言語学習の進歩は、大規模な3Dデータセットの希少性によって妨げられています。
既存の2D中心モデルと具体化されたシステムで利用可能な豊富な3D感覚データの間のギャップを埋める2Dおよび3D視覚言語の理解のための統一されたアーキテクチャであるUnivlgを紹介します。
当社のアプローチは、2Dと3Dの両方の視覚言語データの両方で、事前に訓練された2Dモデルとトレーニングからのほとんどのモデル重量を初期化します。
2Dおよび3Dモダリティで共有された新しい言語条件付きマスクデコーダーを、RGBおよびRGB-D画像の両方でオブジェクトを効果的に接地し、ボックスベースのアプローチを上回ることを提案します。
2Dと3Dの間のドメインギャップをさらに削減するために、2D対3Dリフティング戦略を組み込み、UNIVLGが2Dデータを利用して3Dパフォーマンスを向上させることができます。
これらのイノベーションにより、私たちのモデルは、複数の3Dビジョン言語接地タスクにわたって最先端のパフォーマンスを達成し、2Dビジョン言語学習からデータ制約の3Dドメインに進歩を転送する可能性を示しています。
さらに、2Dデータと3Dデータの両方での共同トレーニングは、2D機能を犠牲にすることなく、モダリティ全体のパフォーマンスを向上させます。
3Dメッシュの再構成と地上忠実なオブジェクトの提案への依存を削除することにより、UNIVLGは、現実的で具体化された評価の新しい基準を設定します。
コードと追加の視覚化は、https://univlg.github.ioで入手できます。

要約(オリジナル)

Progress in 3D vision-language learning has been hindered by the scarcity of large-scale 3D datasets. We introduce UniVLG, a unified architecture for 2D and 3D vision-language understanding that bridges the gap between existing 2D-centric models and the rich 3D sensory data available in embodied systems. Our approach initializes most model weights from pre-trained 2D models and trains on both 2D and 3D vision-language data. We propose a novel language-conditioned mask decoder shared across 2D and 3D modalities to ground objects effectively in both RGB and RGB-D images, outperforming box-based approaches. To further reduce the domain gap between 2D and 3D, we incorporate 2D-to-3D lifting strategies, enabling UniVLG to utilize 2D data to enhance 3D performance. With these innovations, our model achieves state-of-the-art performance across multiple 3D vision-language grounding tasks, demonstrating the potential of transferring advances from 2D vision-language learning to the data-constrained 3D domain. Furthermore, co-training on both 2D and 3D data enhances performance across modalities without sacrificing 2D capabilities. By removing the reliance on 3D mesh reconstruction and ground-truth object proposals, UniVLG sets a new standard for realistic, embodied-aligned evaluation. Code and additional visualizations are available at https://univlg.github.io .

arxiv情報

著者 Ayush Jain,Alexander Swerdlow,Yuzhou Wang,Sergio Arnaud,Ada Martin,Alexander Sax,Franziska Meier,Katerina Fragkiadaki
発行日 2025-03-20 16:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Unifying 2D and 3D Vision-Language Understanding はコメントを受け付けていません

Rapid patient-specific neural networks for intraoperative X-ray to volume registration

要約

画像誘導介入における人工知能の統合は、変革の可能性をもたらし、複雑な手順中に従来の2Dイメージングモダリティから3D幾何学的および定量的情報を抽出することを約束します。
これを達成するには、3D術前のボリューム(CT、MRIなど)を備えた2D術中画像(X線など)の迅速かつ正確な整列が必要です。
ただし、現在の2D/3D登録方法は、X線ガイダンスに依存する幅広い手順全体で失敗します。従来の最適化手法は、各被験者のカスタムパラメーターチューニングを必要としますが、小さなデータセットでトレーニングされたニューラルネットワークは新しい患者に一般化することはなく、労働集約的なマニュアル注釈、臨床的負担の増加、新しい麻薬の標的へのアプリケーションの増加を必要としません。
これらの課題に対処するために、2D/3D登録のために患者固有のニューラルネットワークをトレーニングするための完全に自動化されたフレームワークであるXVRを提示します。
XVRは、物理ベースのシミュレーションを使用して、患者自身の術前体積イメージングから豊富な高品質のトレーニングデータを生成し、それにより、新しい患者と手順に一般化する監督モデルの本質的に限られた能力を克服します。
さらに、XVRは患者ごとに5分間のトレーニングを必要とするため、緊急介入と計画された手順に適しています。
これまでの実際のX線データに関する2D/3D登録アルゴリズムの最大の評価を実行し、複数の解剖学的構造、イメージングモダリティ、および病院で構成される多様なデータセット全体でXVRが堅牢に一般化することがわかります。
外科的タスク全体で、XVRは術中の速度で亜科の蓄積登録を達成し、既存の方法を数桁改善します。
XVRは、https://github.com/eigenvivek/xvrで無料で入手できるオープンソースソフトウェアとしてリリースされます。

要約(オリジナル)

The integration of artificial intelligence in image-guided interventions holds transformative potential, promising to extract 3D geometric and quantitative information from conventional 2D imaging modalities during complex procedures. Achieving this requires the rapid and precise alignment of 2D intraoperative images (e.g., X-ray) with 3D preoperative volumes (e.g., CT, MRI). However, current 2D/3D registration methods fail across the broad spectrum of procedures dependent on X-ray guidance: traditional optimization techniques require custom parameter tuning for each subject, whereas neural networks trained on small datasets do not generalize to new patients or require labor-intensive manual annotations, increasing clinical burden and precluding application to new anatomical targets. To address these challenges, we present xvr, a fully automated framework for training patient-specific neural networks for 2D/3D registration. xvr uses physics-based simulation to generate abundant high-quality training data from a patient’s own preoperative volumetric imaging, thereby overcoming the inherently limited ability of supervised models to generalize to new patients and procedures. Furthermore, xvr requires only 5 minutes of training per patient, making it suitable for emergency interventions as well as planned procedures. We perform the largest evaluation of a 2D/3D registration algorithm on real X-ray data to date and find that xvr robustly generalizes across a diverse dataset comprising multiple anatomical structures, imaging modalities, and hospitals. Across surgical tasks, xvr achieves submillimeter-accurate registration at intraoperative speeds, improving upon existing methods by an order of magnitude. xvr is released as open-source software freely available at https://github.com/eigenvivek/xvr.

arxiv情報

著者 Vivek Gopalakrishnan,Neel Dey,David-Dimitris Chlorogiannis,Andrew Abumoussa,Anna M. Larson,Darren B. Orbach,Sarah Frisken,Polina Golland
発行日 2025-03-20 16:33:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, physics.med-ph | Rapid patient-specific neural networks for intraoperative X-ray to volume registration はコメントを受け付けていません

Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction

要約

Dust3Rは最近、カメラの内在性と外的性論の推定、3Dのシーンの再構築、画像対応の確立など、マルチビュージオメトリの多くのタスクを減らすことができることを示しています。
この定式化はエレガントで強力ですが、ダイナミックなシーンに取り組むことはできません。
この課題に対処するために、動的ポイントマップ(DPM)の概念を紹介し、標準ポイントマップを拡張して、モーションセグメンテーション、シーンフロー推定、3Dオブジェクト追跡、2D対応などの4Dタスクをサポートします。
私たちの重要な直感は、時間が導入されると、ポイントマップを定義するために使用できるいくつかの可能な空間的および時間参照があることです。
上記のサブタスクを解決するためにネットワークによって回帰できるような組み合わせの最小限のサブセットを特定します。
合成データと実際のデータの混合物でDPM予測因子をトレーニングし、ビデオ深度予測、動的ポイントクラウドの再構築、3Dシーンフロー、オブジェクトのポーズ追跡のために、多様なベンチマーク全体で評価し、最先端のパフォーマンスを実現します。
コード、モデル、および追加の結果は、https://www.robots.ox.ac.uk/~vgg/research/dynamic-point-maps/で入手できます。

要約(オリジナル)

DUSt3R has recently shown that one can reduce many tasks in multi-view geometry, including estimating camera intrinsics and extrinsics, reconstructing the scene in 3D, and establishing image correspondences, to the prediction of a pair of viewpoint-invariant point maps, i.e., pixel-aligned point clouds defined in a common reference frame. This formulation is elegant and powerful, but unable to tackle dynamic scenes. To address this challenge, we introduce the concept of Dynamic Point Maps (DPM), extending standard point maps to support 4D tasks such as motion segmentation, scene flow estimation, 3D object tracking, and 2D correspondence. Our key intuition is that, when time is introduced, there are several possible spatial and time references that can be used to define the point maps. We identify a minimal subset of such combinations that can be regressed by a network to solve the sub tasks mentioned above. We train a DPM predictor on a mixture of synthetic and real data and evaluate it across diverse benchmarks for video depth prediction, dynamic point cloud reconstruction, 3D scene flow and object pose tracking, achieving state-of-the-art performance. Code, models and additional results are available at https://www.robots.ox.ac.uk/~vgg/research/dynamic-point-maps/.

arxiv情報

著者 Edgar Sucar,Zihang Lai,Eldar Insafutdinov,Andrea Vedaldi
発行日 2025-03-20 16:41:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction はコメントを受け付けていません

Multi-Modal Foundation Models for Computational Pathology: A Survey

要約

基礎モデルは、計算病理学(CPATH)の強力なパラダイムとして浮上し、組織病理学的画像のスケーラブルで一般化可能な分析を可能にしました。
視覚データのみで訓練されたユニモーダルモデルを中心とした初期の開発は、最近の進歩により、テキストレポート、構造化ドメイン知識、分子プロファイルなどの異種のデータソースを統合するマルチモーダルファンデーションモデルの約束を強調しています。
この調査では、ヘマトキシリンとエオシン(H&E)染色された全体のスライド画像(WSI)およびタイルレベルの表現に基づいて構築されたモデルに特に焦点を当てて、CPATのマルチモーダル基礎モデルの包括的かつ最新のレビューを提供します。
32の最先端のマルチモーダルファンデーションモデルを、ビジョン言語、ビジョン知識グラフ、視覚遺伝子表現の3つの主要なパラダイムに分類します。
さらに、Vision-Languageモデルを非LLMベースのLLMベースのアプローチに分割します。
さらに、病理学に合わせて調整された28の利用可能なマルチモーダルデータセットを分析し、画像テキストペア、命令データセット、および画像の他のモダリティペアにグループ化します。
また、私たちの調査では、下流のタスクの分類法を提示し、トレーニングと評価戦略を強調し、重要な課題と将来の方向性を特定します。
この調査は、病理とAIの交差点で働く研究者と実践者にとって貴重なリソースとして役立つことを目指しています。

要約(オリジナル)

Foundation models have emerged as a powerful paradigm in computational pathology (CPath), enabling scalable and generalizable analysis of histopathological images. While early developments centered on uni-modal models trained solely on visual data, recent advances have highlighted the promise of multi-modal foundation models that integrate heterogeneous data sources such as textual reports, structured domain knowledge, and molecular profiles. In this survey, we provide a comprehensive and up-to-date review of multi-modal foundation models in CPath, with a particular focus on models built upon hematoxylin and eosin (H&E) stained whole slide images (WSIs) and tile-level representations. We categorize 32 state-of-the-art multi-modal foundation models into three major paradigms: vision-language, vision-knowledge graph, and vision-gene expression. We further divide vision-language models into non-LLM-based and LLM-based approaches. Additionally, we analyze 28 available multi-modal datasets tailored for pathology, grouped into image-text pairs, instruction datasets, and image-other modality pairs. Our survey also presents a taxonomy of downstream tasks, highlights training and evaluation strategies, and identifies key challenges and future directions. We aim for this survey to serve as a valuable resource for researchers and practitioners working at the intersection of pathology and AI.

arxiv情報

著者 Dong Li,Guihong Wan,Xintao Wu,Xinyu Wu,Xiaohui Chen,Yi He,Christine G. Lian,Peter K. Sorger,Yevgeniy R. Semenov,Chen Zhao
発行日 2025-03-20 16:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Multi-Modal Foundation Models for Computational Pathology: A Survey はコメントを受け付けていません

Ultra-Resolution Adaptation with Ease

要約

テキストからイメージへの拡散モデルは、近年顕著な進歩を遂げています。
ただし、特にトレーニングデータと計算リソースが限られている場合、高解像度の画像生成のトレーニングモデルは依然として困難です。
この論文では、この実用的な問題を2つの重要な観点から調査し、データとパラメーターの効率性を調査し、\ emph {urae}と呼ばれる超解像度適応の重要なガイドラインのセットを提案します。
データ効率のために、一部の教師モデルによって生成された合成データがトレーニングの収束を大幅に促進できることを理論的および経験的に実証します。
パラメーター効率のために、合成データが利用できない場合、重量行列のマイナーコンポーネントが広く使用されている低ランクアダプターを上回り、効率を維持しながら大幅なパフォーマンスの向上を提供することがわかります。
さらに、フラックスなどのガイダンスの蒸留を活用するモデルの場合、分類器のないガイダンスを無効にする\ textit {i.e。}、適応中にガイダンススケールを1に設定することが、満足のいくパフォーマンスに重要であることを示します。
広範な実験では、URAEがFlux1.1 [Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代のパフォーマンスを達成することを検証し、4K解像度の生成のために新しいベンチマークを設定しながら、3Kサンプルと2K反復のみを備えています。
コードは\ href {https://github.com/huage001/ueae} {ここにあります}。

要約(オリジナル)

Text-to-image diffusion models have achieved remarkable progress in recent years. However, training models for high-resolution image generation remains challenging, particularly when training data and computational resources are limited. In this paper, we explore this practical problem from two key perspectives: data and parameter efficiency, and propose a set of key guidelines for ultra-resolution adaptation termed \emph{URAE}. For data efficiency, we theoretically and empirically demonstrate that synthetic data generated by some teacher models can significantly promote training convergence. For parameter efficiency, we find that tuning minor components of the weight matrices outperforms widely-used low-rank adapters when synthetic data are unavailable, offering substantial performance gains while maintaining efficiency. Additionally, for models leveraging guidance distillation, such as FLUX, we show that disabling classifier-free guidance, \textit{i.e.}, setting the guidance scale to 1 during adaptation, is crucial for satisfactory performance. Extensive experiments validate that URAE achieves comparable 2K-generation performance to state-of-the-art closed-source models like FLUX1.1 [Pro] Ultra with only 3K samples and 2K iterations, while setting new benchmarks for 4K-resolution generation. Codes are available \href{https://github.com/Huage001/URAE}{here}.

arxiv情報

著者 Ruonan Yu,Songhua Liu,Zhenxiong Tan,Xinchao Wang
発行日 2025-03-20 16:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Ultra-Resolution Adaptation with Ease はコメントを受け付けていません

Gaussian Graph Network: Learning Efficient and Generalizable Gaussian Representations from Multi-view Images

要約

3Dガウススプラッティング(3DGS)は、印象的な新規ビューの合成パフォーマンスを実証しています。
従来の方法では、シーンごとの最適化が必要ですが、最近では、異なるシーンに一般化できる学習可能なネットワークでピクセルアラインドガウス表現を生成するために、いくつかのフィードフォワード方法が提案されています。
ただし、これらの方法は、シーンの表現として複数のビューからピクセルに合わせたガウス人を単に組み合わせるだけで、さまざまな画像からガウスの関係を完全に捉えることなく、アーティファクトと余分なメモリコストにつながります。
この論文では、Gaussianグラフネットワーク(GGN)を提案して、効率的で一般化可能なガウス表現を生成します。
具体的には、ガウスグラフを構築して、さまざまな見解からガウスグループの関係をモデル化します。
ガウスレベルでのメッセージの通過をサポートするために、ガウス表現に対する基本的なグラフ操作を再定式化し、各ガウスが接続されたガウス群からガウス特徴の融合を伴う利益を得ることができます。
さらに、効率的な表現のためにさまざまなガウスグループを集約するために、ガウスプーリング層を設計します。
大規模なRealestate10Kおよび酸データセットで実験を実施して、方法の効率と一般化を実証します。
最先端の方法と比較して、モデルはガウス系を使用していないため、より高いレンダリング速度でより良い画質を達成します。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has demonstrated impressive novel view synthesis performance. While conventional methods require per-scene optimization, more recently several feed-forward methods have been proposed to generate pixel-aligned Gaussian representations with a learnable network, which are generalizable to different scenes. However, these methods simply combine pixel-aligned Gaussians from multiple views as scene representations, thereby leading to artifacts and extra memory cost without fully capturing the relations of Gaussians from different images. In this paper, we propose Gaussian Graph Network (GGN) to generate efficient and generalizable Gaussian representations. Specifically, we construct Gaussian Graphs to model the relations of Gaussian groups from different views. To support message passing at Gaussian level, we reformulate the basic graph operations over Gaussian representations, enabling each Gaussian to benefit from its connected Gaussian groups with Gaussian feature fusion. Furthermore, we design a Gaussian pooling layer to aggregate various Gaussian groups for efficient representations. We conduct experiments on the large-scale RealEstate10K and ACID datasets to demonstrate the efficiency and generalization of our method. Compared to the state-of-the-art methods, our model uses fewer Gaussians and achieves better image quality with higher rendering speed.

arxiv情報

著者 Shengjun Zhang,Xin Fei,Fangfu Liu,Haixu Song,Yueqi Duan
発行日 2025-03-20 16:56:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Gaussian Graph Network: Learning Efficient and Generalizable Gaussian Representations from Multi-view Images はコメントを受け付けていません