Pose and Facial Expression Transfer by using StyleGAN

要約

顔の画像間でポーズと表現を転送する方法を提案します。
ソースとターゲットフェイスのポートレートが与えられた場合、モデルは、ソースフェイスイメージのポーズと式がターゲットアイデンティティに転送される出力画像を生成します。
アーキテクチャは、2つのエンコーダと2つの入力をStyleGan2の潜在空間に投影するマッピングネットワークで構成され、最終的に出力が生成されます。
トレーニングは、多くの個人のビデオシーケンスから自立しています。
手動のラベル付けは必要ありません。
私たちのモデルは、制御可能なポーズと表現を持つランダムアイデンティティの統合を可能にします。
リアルに近いパフォーマンスが達成されます。

要約(オリジナル)

We propose a method to transfer pose and expression between face images. Given a source and target face portrait, the model produces an output image in which the pose and expression of the source face image are transferred onto the target identity. The architecture consists of two encoders and a mapping network that projects the two inputs into the latent space of StyleGAN2, which finally generates the output. The training is self-supervised from video sequences of many individuals. Manual labeling is not required. Our model enables the synthesis of random identities with controllable pose and expression. Close-to-real-time performance is achieved.

arxiv情報

著者 Petr Jahoda,Jan Cech
発行日 2025-04-17 15:29:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Pose and Facial Expression Transfer by using StyleGAN はコメントを受け付けていません

Rethinking Few-Shot Image Fusion: Granular Ball Priors Enable General-Purpose Deep Fusion

要約

画像融合タスクでは、プライアーとしての実際の融合画像が存在しないことは、基本的な課題を提示します。
ほとんどの深い学習ベースの融合方法は、大規模なペアのデータセットに依存して、生の画像からグローバルな重み付け機能を抽出し、それにより、実際の融合画像を近似する融合出力を生成します。
以前の研究とは対照的に、このペーパーでは、事前知識があるという条件下でのニューラルネットワークの少数のショットトレーニングを調査します。
GBFFという名前の新しい融合フレームワークと、少数のショット以前の設定向けに特別に設計された粒状ボールの重要な抽出アルゴリズムを提案します。
融合プロセスに関与するすべてのピクセルペアは、最初は粗粒の粒状ボールとしてモデル化されます。
ローカルレベルでは、細粒の粒状ボールを使用して、輝度空間をスライドさせて非依存性ピクセルペアを抽出し、分割操作を実行して顕著なピクセルペアを取得します。
次に、ピクセルごとの重みが計算され、擬似補助画像が生成されます。
グローバルレベルでは、融合プロセスに多大な貢献をしたピクセルペアが正の領域に分類されますが、その貢献を正確に決定できないものは境界領域に割り当てられます。
粒状ボールは、正の領域の割合に基づいてモダリティを意識した適応を実行し、それによりニューラルネットワークの損失関数を調整し、境界領域の情報を補完できるようにします。
広範な実験は、提案されたアルゴリズムと基礎となる理論の両方の有効性を示しています。
最先端の(SOTA)方法と比較して、私たちのアプローチは、融合時間とイメージの表現力の両方の観点から強い競争力を示しています。
当社のコードは、次のように公開されています。

要約(オリジナル)

In image fusion tasks, the absence of real fused images as priors presents a fundamental challenge. Most deep learning-based fusion methods rely on large-scale paired datasets to extract global weighting features from raw images, thereby generating fused outputs that approximate real fused images. In contrast to previous studies, this paper explores few-shot training of neural networks under the condition of having prior knowledge. We propose a novel fusion framework named GBFF, and a Granular Ball Significant Extraction algorithm specifically designed for the few-shot prior setting. All pixel pairs involved in the fusion process are initially modeled as a Coarse-Grained Granular Ball. At the local level, Fine-Grained Granular Balls are used to slide through the brightness space to extract Non-Salient Pixel Pairs, and perform splitting operations to obtain Salient Pixel Pairs. Pixel-wise weights are then computed to generate a pseudo-supervised image. At the global level, pixel pairs with significant contributions to the fusion process are categorized into the Positive Region, while those whose contributions cannot be accurately determined are assigned to the Boundary Region. The Granular Ball performs modality-aware adaptation based on the proportion of the positive region, thereby adjusting the neural network’s loss function and enabling it to complement the information of the boundary region. Extensive experiments demonstrate the effectiveness of both the proposed algorithm and the underlying theory. Compared with state-of-the-art (SOTA) methods, our approach shows strong competitiveness in terms of both fusion time and image expressiveness. Our code is publicly available at:

arxiv情報

著者 Minjie Deng,Yan Wei,Hao Zhai,An Wu,Yuncan Ouyang,Qianyao Peng
発行日 2025-04-17 15:31:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG, eess.IV, stat.ML | Rethinking Few-Shot Image Fusion: Granular Ball Priors Enable General-Purpose Deep Fusion はコメントを受け付けていません

CompGS++: Compressed Gaussian Splatting for Static and Dynamic Scene Representation

要約

Gaussian Splattingは、3Dシーンモデリングの習熟度を示していますが、固有の原始冗長性のためにかなりのデータ量に苦しんでいます。
将来のフォトリアリスティックな3D没入型視覚通信アプリケーションを可能にするために、既存のインターネットインフラストラクチャを介した送信には大きな圧縮が不可欠です。
したがって、コンパクトなガウスプリミティブを活用して、静的シーンとダイナミックシーンの両方で大幅なサイズ削減を伴う正確な3Dモデリングを実現する、圧縮ガウススプラッティング(compgs ++)を提案します。
私たちの設計は、プリミティブ間と内部の両方で冗長性を排除するという原則に基づいています。
具体的には、空間的および時間的原始予測モジュールを介して相互に微妙な冗長性に対処するための包括的な予測パラダイムを開発します。
空間プリミティブ予測モジュールは、シーンプリミティブの予測関係を確立し、ほとんどのプリミティブをコンパクトな残差としてエンコードできるようにし、空間的冗長性を大幅に減らします。
さらに、一時的なプリミティブ予測モジュールを考案して、動的なシーンを処理します。これにより、タイムスタンプ全体の原始的な相関が悪用され、時間的冗長性が効果的に減少します。
さらに、再構成エラーとレートの消費を共同で最小限に抑えるレート制約の最適化モジュールを考案します。
このモジュールは、プリミティブ内のパラメーター冗長性を効果的に排除し、シーン表現の全体的なコンパクトさを高めます。
複数のベンチマークデータセットにわたる包括的な評価は、comps ++が既存の方法を大幅に上回り、正確なシーンモデリングを維持しながら優れた圧縮性能を達成することを示しています。
私たちの実装は、さらなる研究を促進するためにGitHubで公開されます。

要約(オリジナル)

Gaussian splatting demonstrates proficiency for 3D scene modeling but suffers from substantial data volume due to inherent primitive redundancy. To enable future photorealistic 3D immersive visual communication applications, significant compression is essential for transmission over the existing Internet infrastructure. Hence, we propose Compressed Gaussian Splatting (CompGS++), a novel framework that leverages compact Gaussian primitives to achieve accurate 3D modeling with substantial size reduction for both static and dynamic scenes. Our design is based on the principle of eliminating redundancy both between and within primitives. Specifically, we develop a comprehensive prediction paradigm to address inter-primitive redundancy through spatial and temporal primitive prediction modules. The spatial primitive prediction module establishes predictive relationships for scene primitives and enables most primitives to be encoded as compact residuals, substantially reducing the spatial redundancy. We further devise a temporal primitive prediction module to handle dynamic scenes, which exploits primitive correlations across timestamps to effectively reduce temporal redundancy. Moreover, we devise a rate-constrained optimization module that jointly minimizes reconstruction error and rate consumption. This module effectively eliminates parameter redundancy within primitives and enhances the overall compactness of scene representations. Comprehensive evaluations across multiple benchmark datasets demonstrate that CompGS++ significantly outperforms existing methods, achieving superior compression performance while preserving accurate scene modeling. Our implementation will be made publicly available on GitHub to facilitate further research.

arxiv情報

著者 Xiangrui Liu,Xinju Wu,Shiqi Wang,Zhu Li,Sam Kwong
発行日 2025-04-17 15:33:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | CompGS++: Compressed Gaussian Splatting for Static and Dynamic Scene Representation はコメントを受け付けていません

ChatEXAONEPath: An Expert-level Multimodal Large Language Model for Histopathology Using Whole Slide Images

要約

最近の研究では、医療ドメインで大規模な言語モデル(LLM)の開発に大きな進歩があり、専門家レベルの質問に答え、現実世界の臨床シナリオで臨床医を支援する可能性を実証できます。
研究では、本質的に多面的に多面化された複雑な臨床コンテキストをよりよく理解するために、さまざまなモダリティを既存のLLMと統合することの重要性も目撃しています。
研究により、組織病理学におけるマルチモーダルLLMが与えられた画像からの質問に答える能力が実証されていますが、パブリックデータセットからの情報が限られているパッチレベルのデータにより、徹底的な臨床コンテキストの理解がありません。
したがって、WSIレベルのMLLMを開発することは、組織病理学におけるMLLMのスケーラビリティと適用性の観点から重要です。
この研究では、ChatexaOnePathと呼ばれるWSIを使用して、組織病理学の専門家レベルMLLMを紹介します。
10,094ペアのWSIとがんゲノムアトラス(TCGA)からの組織病理学レポートを使用して、検索ベースのデータ生成パイプラインを提示します。
また、与えられたマルチモーダル情報から医療コンテキストを包括的に理解するためのAIベースの評価プロトコルを紹介し、元の組織病理学レポートと比較して生成された回答を評価します。
ChatexaOnePathを使用して、1,134ペアのWSIおよびレポートから62.9%の受け入れ率を使用して、与えられた組織病理学画像を診断する能力を実証します。
提案されたモデルは、さまざまな癌タイプの汎癌性WSIと臨床的コンテキストを理解できます。
提案されたモデルは、複数のモダリティの統合を通じてがん診断のためのWSIの複雑な形態を包括的に理解することにより、臨床医を支援する可能性があると主張します。

要約(オリジナル)

Recent studies have made significant progress in developing large language models (LLMs) in the medical domain, which can answer expert-level questions and demonstrate the potential to assist clinicians in real-world clinical scenarios. Studies have also witnessed the importance of integrating various modalities with the existing LLMs for a better understanding of complex clinical contexts, which are innately multi-faceted by nature. Although studies have demonstrated the ability of multimodal LLMs in histopathology to answer questions from given images, they lack in understanding of thorough clinical context due to the patch-level data with limited information from public datasets. Thus, developing WSI-level MLLMs is significant in terms of the scalability and applicability of MLLMs in histopathology. In this study, we introduce an expert-level MLLM for histopathology using WSIs, dubbed as ChatEXAONEPath. We present a retrieval-based data generation pipeline using 10,094 pairs of WSIs and histopathology reports from The Cancer Genome Atlas (TCGA). We also showcase an AI-based evaluation protocol for a comprehensive understanding of the medical context from given multimodal information and evaluate generated answers compared to the original histopathology reports. We demonstrate the ability of diagnosing the given histopathology images using ChatEXAONEPath with the acceptance rate of 62.9% from 1,134 pairs of WSIs and reports. Our proposed model can understand pan-cancer WSIs and clinical context from various cancer types. We argue that our proposed model has the potential to assist clinicians by comprehensively understanding complex morphology of WSIs for cancer diagnosis through the integration of multiple modalities.

arxiv情報

著者 Sangwook Kim,Soonyoung Lee,Jongseong Jang
発行日 2025-04-17 15:33:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ChatEXAONEPath: An Expert-level Multimodal Large Language Model for Histopathology Using Whole Slide Images はコメントを受け付けていません

DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

要約

単一のラベル付き例を考えると、コンテキスト内セグメンテーションは、対応するオブジェクトをセグメント化することを目的としています。
少数のショット学習のワンショットセグメンテーションとして知られているこの設定では、セグメンテーションモデルの一般化能力を調査し、シーンの理解や画像/ビデオ編集など、さまざまなビジョンタスクに適用されています。
最近のセグメントでは、モデルはインタラクティブなセグメンテーションで最先端の結果を達成しましたが、これらのアプローチはコンテキスト内セグメンテーションに直接適用できません。
この作業では、画像とビデオの両方のコンテキスト内セグメンテーションにSAMとSAM2を適応させるためのプロンプトチューニングに基づいて、デュアル一貫性SAM(DC-SAM)メソッドを提案します。
私たちの重要な洞察は、高品質の視覚プロンプトを提供することにより、セグメンテーションにおけるSAMのプロンプトエンコーダーの機能を強化することです。
事前にマスクを生成するとき、SAM機能を融合して、プロンプトエンコーダーをより適切に整列させます。
次に、融合機能と初期の視覚プロンプトに関するサイクル一貫性のある相互参加を設計します。
次に、プロンプトエンコーダーの識別的正と負のプロンプトを使用して、デュアルブランチ設計が提供されます。
さらに、提案された二重の一貫性方法をマスクチューブに採用するために、シンプルなマスクチューブトレーニング戦略を設計します。
提案されているDC-SAMは主に画像用に設計されていますが、SAM2のサポートでビデオドメインにシームレスに拡張できます。
ビデオドメインにコンテキスト内セグメンテーションがないことを考えると、モデルのコンテキスト内機能をよりよく評価するために、コンテキスト内のビデオオブジェクトセグメンテーション(IC-VO)という名前の既存のビデオセグメンテーションデータセットから最初のベンチマークを手動でキュレートして構築します。
広範な実験は、私たちの方法が、PASCAL-5IでCoCO-20I、73.0(+1.1)MIOUで55.5(+1.4)MIOUを達成し、提案されたIC-VOSベンチマークで71.52のJ&Fスコアを達成することを示しています。
ソースコードとベンチマークは、https://github.com/zaplm/dc-samで入手できます。

要約(オリジナル)

Given a single labeled example, in-context segmentation aims to segment corresponding objects. This setting, known as one-shot segmentation in few-shot learning, explores the segmentation model’s generalization ability and has been applied to various vision tasks, including scene understanding and image/video editing. While recent Segment Anything Models have achieved state-of-the-art results in interactive segmentation, these approaches are not directly applicable to in-context segmentation. In this work, we propose the Dual Consistency SAM (DC-SAM) method based on prompt-tuning to adapt SAM and SAM2 for in-context segmentation of both images and videos. Our key insights are to enhance the features of the SAM’s prompt encoder in segmentation by providing high-quality visual prompts. When generating a mask prior, we fuse the SAM features to better align the prompt encoder. Then, we design a cycle-consistent cross-attention on fused features and initial visual prompts. Next, a dual-branch design is provided by using the discriminative positive and negative prompts in the prompt encoder. Furthermore, we design a simple mask-tube training strategy to adopt our proposed dual consistency method into the mask tube. Although the proposed DC-SAM is primarily designed for images, it can be seamlessly extended to the video domain with the support of SAM2. Given the absence of in-context segmentation in the video domain, we manually curate and construct the first benchmark from existing video segmentation datasets, named In-Context Video Object Segmentation (IC-VOS), to better assess the in-context capability of the model. Extensive experiments demonstrate that our method achieves 55.5 (+1.4) mIoU on COCO-20i, 73.0 (+1.1) mIoU on PASCAL-5i, and a J&F score of 71.52 on the proposed IC-VOS benchmark. Our source code and benchmark are available at https://github.com/zaplm/DC-SAM.

arxiv情報

著者 Mengshi Qi,Pengfei Zhu,Xiangtai Li,Xiaoyang Bi,Lu Qi,Huadong Ma,Ming-Hsuan Yang
発行日 2025-04-17 15:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency はコメントを受け付けていません

Riemannian Patch Assignment Gradient Flows

要約

このペーパーでは、グラフ上のメトリックデータラベルのパッチ割り当てフローを紹介します。
ラベリングは、ラベル全体のラベルとラベルの両方の割り当ての動的な相互作用を通じて、初期のローカルラベルを正規化することにより決定され、競合するラベル付きパッチの辞書によって完全にエンコードされ、パッチ割り当て変数によって媒介されます。
パッチ割り当ての最大の一貫性は、ラグランジアン作用の重要な点として、リーマニアの上昇フローの幾何学的数値統合によって達成されます。
実験は、ラベル割り当ての不確実性の定量化を含む、アプローチの特性を示しています。

要約(オリジナル)

This paper introduces patch assignment flows for metric data labeling on graphs. Labelings are determined by regularizing initial local labelings through the dynamic interaction of both labels and label assignments across the graph, entirely encoded by a dictionary of competing labeled patches and mediated by patch assignment variables. Maximal consistency of patch assignments is achieved by geometric numerical integration of a Riemannian ascent flow, as critical point of a Lagrangian action functional. Experiments illustrate properties of the approach, including uncertainty quantification of label assignments.

arxiv情報

著者 Daniel Gonzalez-Alvarado,Fabio Schlindwein,Jonas Cassel,Laura Steingruber,Stefania Petra,Christoph Schnörr
発行日 2025-04-17 15:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Riemannian Patch Assignment Gradient Flows はコメントを受け付けていません

TTRD3: Texture Transfer Residual Denoising Dual Diffusion Model for Remote Sensing Image Super-Resolution

要約

リモートセンシング画像スーパー解像度(RSISR)は、低解像度の入力から高解像度(HR)リモートセンシング画像を再構築して、きめ細かい地面のオブジェクト解釈をサポートします。
既存の方法は、3つの重要な課題に直面しています。(1)空間的に不均一なRSシーンからマルチスケール機能を抽出することの難しさ、(2)再構築におけるセマンティックな矛盾を引き起こす限られた事前の情報、および(3)幾何学的精度と視覚品質の間のトレードオフの不均衡。
これらの問題に対処するために、3つのイノベーションを備えたテクスチャ転送デュアル拡散モデル(TTRD3)を提案します。まず、マルチスケール機能抽出に並行した不均一畳み込みカーネルを使用するマルチスケール機能集約ブロック(MFAB)です。
第二に、同様のシーンの参照画像からHRテクスチャプリエアを転送するスパーステクスチャ転送ガイダンス(STTG)モジュール。
第三に、多様な生成の決定論的再構成とノイズ拡散のための残留拡散を組み合わせた残留除去デュアル拡散モデル(RDDM)フレームワーク。
マルチソースRSデータセットの実験は、最先端の方法よりもTTRD3の優位性を示しており、1.43%のLPIPSの改善と3.67%のFID強化を実現し、ベストパフォーマンスのベースラインと比較して3.67%のFID強化を実現しています。
コード/モデル:https://github.com/LED-666/TTRD3。

要約(オリジナル)

Remote Sensing Image Super-Resolution (RSISR) reconstructs high-resolution (HR) remote sensing images from low-resolution inputs to support fine-grained ground object interpretation. Existing methods face three key challenges: (1) Difficulty in extracting multi-scale features from spatially heterogeneous RS scenes, (2) Limited prior information causing semantic inconsistency in reconstructions, and (3) Trade-off imbalance between geometric accuracy and visual quality. To address these issues, we propose the Texture Transfer Residual Denoising Dual Diffusion Model (TTRD3) with three innovations: First, a Multi-scale Feature Aggregation Block (MFAB) employing parallel heterogeneous convolutional kernels for multi-scale feature extraction. Second, a Sparse Texture Transfer Guidance (STTG) module that transfers HR texture priors from reference images of similar scenes. Third, a Residual Denoising Dual Diffusion Model (RDDM) framework combining residual diffusion for deterministic reconstruction and noise diffusion for diverse generation. Experiments on multi-source RS datasets demonstrate TTRD3’s superiority over state-of-the-art methods, achieving 1.43% LPIPS improvement and 3.67% FID enhancement compared to best-performing baselines. Code/model: https://github.com/LED-666/TTRD3.

arxiv情報

著者 Yide Liu,Haijiang Sun,Xiaowen Zhang,Qiaoyuan Liu,Zhouchang Chen,Chongzhuo Xiao
発行日 2025-04-17 15:37:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TTRD3: Texture Transfer Residual Denoising Dual Diffusion Model for Remote Sensing Image Super-Resolution はコメントを受け付けていません

Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval

要約

検索システムでは、同時に検索の精度と効率を達成することは本質的に困難です。
この課題は、部分的に関連するビデオ検索(PRVR)で特に顕著です。この場合、各ビデオのさまざまな時間スケールでより多様なコンテキスト表現を組み込むと、精度が向上しますが、計算コストとメモリコストが増加します。
この二分法に対処するために、ビデオ内の多様なコンテキストを固定数のプロトタイプにコードするプロトタイプのPRVRフレームワークを提案します。
次に、プロトタイプ内のテキスト関連とビデオの理解を強化するためのいくつかの戦略を導入し、プロトタイプが多様なコンテンツをキャプチャすることを保証する直交目的を紹介します。
ビデオコンテキストを正確にエンコードしながら、テキストクエリを介してプロトタイプを検索可能に保つために、クロスおよびユニモーダルの再構成タスクを実装します。
クロスモーダル再構成タスクは、プロトタイプを共有スペース内のテキスト機能に合わせますが、Uni-Modal再構成タスクはエンコード中にすべてのビデオコンテキストを保持します。
さらに、ビデオミキシング手法を採用して、プロトタイプと関連するテキスト表現をさらに調整するための弱いガイダンスを提供します。
TVR、ActivityNet-Captions、QVHighlightsの広範な評価は、効率を犠牲にすることなくアプローチの有効性を検証します。

要約(オリジナル)

In a retrieval system, simultaneously achieving search accuracy and efficiency is inherently challenging. This challenge is particularly pronounced in partially relevant video retrieval (PRVR), where incorporating more diverse context representations at varying temporal scales for each video enhances accuracy but increases computational and memory costs. To address this dichotomy, we propose a prototypical PRVR framework that encodes diverse contexts within a video into a fixed number of prototypes. We then introduce several strategies to enhance text association and video understanding within the prototypes, along with an orthogonal objective to ensure that the prototypes capture a diverse range of content. To keep the prototypes searchable via text queries while accurately encoding video contexts, we implement cross- and uni-modal reconstruction tasks. The cross-modal reconstruction task aligns the prototypes with textual features within a shared space, while the uni-modal reconstruction task preserves all video contexts during encoding. Additionally, we employ a video mixing technique to provide weak guidance to further align prototypes and associated textual representations. Extensive evaluations on TVR, ActivityNet-Captions, and QVHighlights validate the effectiveness of our approach without sacrificing efficiency.

arxiv情報

著者 WonJun Moon,Cheol-Ho Cho,Woojin Jun,Minho Shim,Taeoh Kim,Inwoong Lee,Dongyoon Wee,Jae-Pil Heo
発行日 2025-04-17 15:43:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval はコメントを受け付けていません

Towards Cardiac MRI Foundation Models: Comprehensive Visual-Tabular Representations for Whole-Heart Assessment and Beyond

要約

心臓磁気共鳴画像法は、非侵襲的心臓評価のゴールドスタンダードであり、心臓の解剖学と生理学の豊富な時空間的見解を提供します。
人口統計、代謝、ライフスタイルなどの患者レベルの健康要因は、心血管の健康と疾患のリスクに実質的に影響を与えることが知られていますが、CMRだけでは非難のままです。
心臓の健康を全体的に理解し、個人の疾患リスクの可能な限り最良の解釈を可能にするためには、CMRと患者レベルの要因を統合されたフレームワーク内で共同で搾取する必要があります。
最近のマルチモーダルアプローチはこのギャップを埋め始めていますが、彼らはしばしば限られた時空間データに依存し、孤立した臨床タスクに焦点を当てているため、心臓の健康評価のための包括的な表現の開発を妨げます。
これらの制限を克服するために、ヴィタを導入します。これは、心臓の包括的な表現と個々の疾患リスクの正確な解釈を提供する基礎モデルへの一歩です。
VITAは、42,000人の英国のBiobank参加者からのデータを活用して、3D+T Cineスタックを短軸と長軸ビューから統合し、心周期を完全に獲得できるようにします。
これらのイメージングデータは、詳細な表形式の患者レベルの要因と融合し、コンテキストを意識した洞察を可能にします。
このマルチモーダルパラダイムは、単一の統合フレームワーク内の心臓および代謝疾患の心臓の特徴の予測、セグメンテーション、および分類を含む、幅広い下流タスクをサポートしています。
豊富なイメージングの特徴と患者のコンテキストを橋渡しする共有潜在表現を学ぶことにより、VITAは、心臓の健康に関する普遍的な患者固有の理解に向けて、従来のタスク固有のモデルを超えて動き、心臓分析における臨床的有用性とスケーラビリティを前進させる可能性を強調します。

要約(オリジナル)

Cardiac magnetic resonance imaging is the gold standard for non-invasive cardiac assessment, offering rich spatio-temporal views of the cardiac anatomy and physiology. Patient-level health factors, such as demographics, metabolic, and lifestyle, are known to substantially influence cardiovascular health and disease risk, yet remain uncaptured by CMR alone. To holistically understand cardiac health and to enable the best possible interpretation of an individual’s disease risk, CMR and patient-level factors must be jointly exploited within an integrated framework. Recent multi-modal approaches have begun to bridge this gap, yet they often rely on limited spatio-temporal data and focus on isolated clinical tasks, thereby hindering the development of a comprehensive representation for cardiac health evaluation. To overcome these limitations, we introduce ViTa, a step toward foundation models that delivers a comprehensive representation of the heart and a precise interpretation of individual disease risk. Leveraging data from 42,000 UK Biobank participants, ViTa integrates 3D+T cine stacks from short-axis and long-axis views, enabling a complete capture of the cardiac cycle. These imaging data are then fused with detailed tabular patient-level factors, enabling context-aware insights. This multi-modal paradigm supports a wide spectrum of downstream tasks, including cardiac phenotype and physiological feature prediction, segmentation, and classification of cardiac and metabolic diseases within a single unified framework. By learning a shared latent representation that bridges rich imaging features and patient context, ViTa moves beyond traditional, task-specific models toward a universal, patient-specific understanding of cardiac health, highlighting its potential to advance clinical utility and scalability in cardiac analysis.

arxiv情報

著者 Yundi Zhang,Paul Hager,Che Liu,Suprosanna Shit,Chen Chen,Daniel Rueckert,Jiazhen Pan
発行日 2025-04-17 15:46:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Towards Cardiac MRI Foundation Models: Comprehensive Visual-Tabular Representations for Whole-Heart Assessment and Beyond はコメントを受け付けていません

A Survey and Evaluation of Adversarial Attacks for Object Detection

要約

ディープラーニングモデルは、コンピュータービジョンタスクの顕著な精度を達成しますが、敵対的な例に対して脆弱なままです。これらのモデルを欺くことができる画像を入力して自信を持っているが間違った予測を入力できるように、容赦なく作成された摂動。
この脆弱性は、自動運転車、セキュリティ監視、安全批判的な検査システムなどの高ステークスアプリケーションに重大なリスクをもたらします。
既存の文献は画像分類における敵対的な攻撃を広範囲にカバーしていますが、オブジェクト検出システムに対するこのような攻撃の包括的な分析は限られたままです。
このペーパーでは、オブジェクト検出アーキテクチャに固有の敵対攻撃を分類するための新しい分類枠組みを紹介し、既存の堅牢性メトリックを統合し、視力標識取引を伴う従来の検出器と最新の検出器の両方を含む人気のあるオブジェクト検出モデルに関する最先端の攻撃方法論の包括的な経験的評価を提供します。
オープンソース攻撃の実装の厳密な分析と、多様な検出アーキテクチャ全体にわたるそれらの有効性を通じて、攻撃特性に関する重要な洞察を導き出します。
さらに、敵対的な脅威に対するオブジェクト検出システムを確保する際の将来の調査を導くために、重要な研究のギャップと新たな課題を描きます。
私たちの調査結果は、この急速に進化するドメインの標準化された評価プロトコルの緊急の必要性を強調しながら、より堅牢な検出モデルを開発するための基盤を確立します。

要約(オリジナル)

Deep learning models achieve remarkable accuracy in computer vision tasks, yet remain vulnerable to adversarial examples–carefully crafted perturbations to input images that can deceive these models into making confident but incorrect predictions. This vulnerability pose significant risks in high-stakes applications such as autonomous vehicles, security surveillance, and safety-critical inspection systems. While the existing literature extensively covers adversarial attacks in image classification, comprehensive analyses of such attacks on object detection systems remain limited. This paper presents a novel taxonomic framework for categorizing adversarial attacks specific to object detection architectures, synthesizes existing robustness metrics, and provides a comprehensive empirical evaluation of state-of-the-art attack methodologies on popular object detection models, including both traditional detectors and modern detectors with vision-language pretraining. Through rigorous analysis of open-source attack implementations and their effectiveness across diverse detection architectures, we derive key insights into attack characteristics. Furthermore, we delineate critical research gaps and emerging challenges to guide future investigations in securing object detection systems against adversarial threats. Our findings establish a foundation for developing more robust detection models while highlighting the urgent need for standardized evaluation protocols in this rapidly evolving domain.

arxiv情報

著者 Khoi Nguyen Tiet Nguyen,Wenyu Zhang,Kangkang Lu,Yuhuan Wu,Xingjian Zheng,Hui Li Tan,Liangli Zhen
発行日 2025-04-17 15:52:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Survey and Evaluation of Adversarial Attacks for Object Detection はコメントを受け付けていません