SITA: Structurally Imperceptible and Transferable Adversarial Attacks for Stylized Image Generation

要約

画像生成テクノロジーは、さまざまな分野で大きな進歩をもたらしましたが、特に視覚的なアートワークの作成に関して、データの誤用と潜在的な権利侵害に関する懸念も提起しています。
アートワークの保護を目的とした現在の方法は、しばしば敵対的な攻撃を採用しています。
ただし、これらの方法は、移転可能性の低さ、計算コストの高いコスト、顕著なノイズの導入などの課題に直面しており、元のアートワークの美的品質を損ないます。
これらの制限に対処するために、私たちは構造的に知覚できない、移転可能な敵対的(SITA)攻撃を提案します。
SITAは、画像の堅牢なスタイルの表現を切り離して混乱させるクリップベースの耐滅損失を活用します。
この混乱は、様式化された画像生成中のスタイルの抽出を妨げ、それによって全体的なスタイリライゼーションプロセスを損ないます。
重要なことに、SITAはサロゲート拡散モデルの必要性を排除し、計算オーバーヘッドが大幅に減少することです。
メソッドの堅牢なスタイル機能の破壊により、多様なモデル全体で高い転送可能性が保証されます。
さらに、SITAは、画像の知覚できない構造の詳細にノイズを埋め込むことにより摂動を導入します。
このアプローチは、アートワークの視覚的品質を損なうことなく、スタイルの抽出から効果的に保護します。
広範な実験は、SITAが様式化された世代での不正使用に対するアートワークの優れた保護を提供することを示しています。
転送可能性、計算効率、およびノイズの知覚性の観点から、既存の方法を大幅に上回っています。
コードはhttps://github.com/a-raniy-day/sitaで入手できます。

要約(オリジナル)

Image generation technology has brought significant advancements across various fields but has also raised concerns about data misuse and potential rights infringements, particularly with respect to creating visual artworks. Current methods aimed at safeguarding artworks often employ adversarial attacks. However, these methods face challenges such as poor transferability, high computational costs, and the introduction of noticeable noise, which compromises the aesthetic quality of the original artwork. To address these limitations, we propose a Structurally Imperceptible and Transferable Adversarial (SITA) attacks. SITA leverages a CLIP-based destylization loss, which decouples and disrupts the robust style representation of the image. This disruption hinders style extraction during stylized image generation, thereby impairing the overall stylization process. Importantly, SITA eliminates the need for a surrogate diffusion model, leading to significantly reduced computational overhead. The method’s robust style feature disruption ensures high transferability across diverse models. Moreover, SITA introduces perturbations by embedding noise within the imperceptible structural details of the image. This approach effectively protects against style extraction without compromising the visual quality of the artwork. Extensive experiments demonstrate that SITA offers superior protection for artworks against unauthorized use in stylized generation. It significantly outperforms existing methods in terms of transferability, computational efficiency, and noise imperceptibility. Code is available at https://github.com/A-raniy-day/SITA.

arxiv情報

著者 Jingdan Kang,Haoxin Yang,Yan Cai,Huaidong Zhang,Xuemiao Xu,Yong Du,Shengfeng He
発行日 2025-03-25 15:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SITA: Structurally Imperceptible and Transferable Adversarial Attacks for Stylized Image Generation はコメントを受け付けていません

Decorum: A Language-Based Approach For Style-Conditioned Synthesis of Indoor 3D Scenes

要約

3D屋内シーンの生成は、デジタルおよび現実世界の環境の設計にとって重要な問題です。
このプロセスを自動化するために、シーン生成モデルは、もっともらしいシーンレイアウトを生成するだけでなく、視覚的な機能とスタイルの好みを考慮に入れることができるはずです。
このタスクの既存の方法は、これらの属性を非常に限られた制御を示し、単純なオブジェクトレベルの説明またはペアワイズ空間関係の形でテキスト入力のみを許可します。
提案された方法の装飾により、ユーザーは各段階で言語ベースの表現を採用することにより、自然言語でシーン生成プロセスを制御できます。
これにより、言語から言語へのマッピングをモデル化するために、大規模な言語モデル(LLMS)の最近の進歩を活用することができます。
さらに、テキストベースの表現を使用すると、マルチモーダルLLMSに基づく新しいオブジェクト検索方法を使用して、シーンの家具を選択できることを示しています。
ベンチマーク3D-FRONTデータセットの評価は、テキストコンディショニングシーンの統合とオブジェクトの検索における既存の作業よりも改善を達成することを示しています。

要約(オリジナル)

3D indoor scene generation is an important problem for the design of digital and real-world environments. To automate this process, a scene generation model should be able to not only generate plausible scene layouts, but also take into consideration visual features and style preferences. Existing methods for this task exhibit very limited control over these attributes, only allowing text inputs in the form of simple object-level descriptions or pairwise spatial relationships. Our proposed method Decorum enables users to control the scene generation process with natural language by adopting language-based representations at each stage. This enables us to harness recent advancements in Large Language Models (LLMs) to model language-to-language mappings. In addition, we show that using a text-based representation allows us to select furniture for our scenes using a novel object retrieval method based on multimodal LLMs. Evaluations on the benchmark 3D-FRONT dataset show that our methods achieve improvements over existing work in text-conditioned scene synthesis and object retrieval.

arxiv情報

著者 Kelly O. Marshall,Omid Poursaeed,Sergiu Oprea,Amit Kumar,Anushrut Jignasu,Chinmay Hegde,Yilei Li,Rakesh Ranjan
発行日 2025-03-25 15:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Decorum: A Language-Based Approach For Style-Conditioned Synthesis of Indoor 3D Scenes はコメントを受け付けていません

In the Blink of an Eye: Instant Game Map Editing using a Generative-AI Smart Brush

要約

ビデオゲームの複雑さが着実に増加するにつれて、ゲームコンテンツの自動生成が広範囲にわたる関心を見出しています。
ただし、3Dゲームマップの作成のタスクは、その独特の複雑さとドメイン固有の課題により、これまでにないままです。
最近の作品は、レトロスタイルのレベルの生成や手続き上の地形の作成などの関連するトピックに対処していますが、これらの作品は主により単純なデータ分布に焦点を当てています。
私たちの知る限り、私たちは、複雑で非常に詳細なAAA 3Dゲーム環境での高解像度のテクスチャ操作のための最新のAI技術の適用を実証する最初の人です。
マップ編集用の新しいスマートブラシを紹介します。アーティストが最小限の労力でゲームマップの選択した領域をシームレスに変更するのを支援するように設計されています。
生成的な敵対的なネットワークと拡散モデルを活用することにより、効率的でコンテキスト認識の生成を可能にするブラシの2つのバリアントを提案します。
当社のハイブリッドワークフローは、芸術的な柔軟性と生産効率の両方を高めることを目的としており、すべての細部を手動で再加工することなく環境の改良を可能にし、ゲーム開発における自動化とクリエイティブコントロールのギャップを埋めるのに役立ちます。
いくつかの最先端のモデルの適応バージョンを使用した2つの方法の比較評価は、GANベースのブラシが画像コンテキストを保持しながら、最も鋭くて最も詳細な出力を生成し、評価された最先端のモデルは輝かしい結果を維持する傾向があり、コンテキストの一貫性を維持するのが難しいことを示しています。

要約(オリジナル)

With video games steadily increasing in complexity, automated generation of game content has found widespread interest. However, the task of 3D gaming map art creation remains underexplored to date due to its unique complexity and domain-specific challenges. While recent works have addressed related topics such as retro-style level generation and procedural terrain creation, these works primarily focus on simpler data distributions. To the best of our knowledge, we are the first to demonstrate the application of modern AI techniques for high-resolution texture manipulation in complex, highly detailed AAA 3D game environments. We introduce a novel Smart Brush for map editing, designed to assist artists in seamlessly modifying selected areas of a game map with minimal effort. By leveraging generative adversarial networks and diffusion models we propose two variants of the brush that enable efficient and context-aware generation. Our hybrid workflow aims to enhance both artistic flexibility and production efficiency, enabling the refinement of environments without manually reworking every detail, thus helping to bridge the gap between automation and creative control in game development. A comparative evaluation of our two methods with adapted versions of several state-of-the art models shows that our GAN-based brush produces the sharpest and most detailed outputs while preserving image context while the evaluated state-of-the-art models tend towards blurrier results and exhibit difficulties in maintaining contextual consistency.

arxiv情報

著者 Vitaly Gnatyuk,Valeriia Koriukina Ilya Levoshevich,Pavel Nurminskiy,Guenter Wallner
発行日 2025-03-25 16:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4 | In the Blink of an Eye: Instant Game Map Editing using a Generative-AI Smart Brush はコメントを受け付けていません

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model

要約

ビジョン言語モデル(VLM)の出現により、マルチモーダル情報の理解において前例のない進歩がもたらされました。
VLMSにおけるテキストと視覚のセマンティクスの組み合わせは非常に複雑で多様であるため、これらのモデルの安全性の整合性が困難です。
さらに、VLMSの安全アライメントに関する研究が限られているため、大規模で高品質のデータセットが不足しています。
これらの制限に対処するために、SPA-VLという名前のビジョン言語モデルの安全優先アライメントデータセットを提案します。
幅の観点から、SPA-VLは6つの有害ドメイン、13のカテゴリ、53のサブカテゴリをカバーし、100,788のサンプルの4倍(質問、画像、選択された応答、拒否応答)をカバーしています。
深さの観点から、応答は、多様性を確保するために、12のオープンソース(QWENVLなど)から収集されます。
優先データの構築は完全に自動化されており、実験結果は、SPA-VLデータセットのアライメント技術でトレーニングされたモデルが、コア機能を維持しながら無害と有用性の大幅な改善を示すことを示しています。
SPA-VLは、大規模で高品質で多様なデータセットとして、VLMが無害と有用性の両方を達成することを保証する上で重要なマイルストーンを表しています。

要約(オリジナル)

The emergence of Vision Language Models (VLMs) has brought unprecedented advances in understanding multimodal information. The combination of textual and visual semantics in VLMs is highly complex and diverse, making the safety alignment of these models challenging. Furthermore, due to the limited study on the safety alignment of VLMs, there is a lack of large-scale, high-quality datasets. To address these limitations, we propose a Safety Preference Alignment dataset for Vision Language Models named SPA-VL. In terms of breadth, SPA-VL covers 6 harmfulness domains, 13 categories, and 53 subcategories, and contains 100,788 samples of the quadruple (question, image, chosen response, rejected response). In terms of depth, the responses are collected from 12 open-source (e.g., QwenVL) and closed-source (e.g., Gemini) VLMs to ensure diversity. The construction of preference data is fully automated, and the experimental results indicate that models trained with alignment techniques on the SPA-VL dataset exhibit substantial improvements in harmlessness and helpfulness while maintaining core capabilities. SPA-VL, as a large-scale, high-quality, and diverse dataset, represents a significant milestone in ensuring that VLMs achieve both harmlessness and helpfulness.

arxiv情報

著者 Yongting Zhang,Lu Chen,Guodong Zheng,Yifeng Gao,Rui Zheng,Jinlan Fu,Zhenfei Yin,Senjie Jin,Yu Qiao,Xuanjing Huang,Feng Zhao,Tao Gui,Jing Shao
発行日 2025-03-25 16:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model はコメントを受け付けていません

PAVE: Patching and Adapting Video Large Language Models

要約

事前に訓練されたビデオ大規模な言語モデル(ビデオLLM)は、驚くべき推論機能を示しますが、これらのモデルを追加のモダリティまたはデータ型(オーディオや3D情報など)を含む新しいタスクに適応させることは依然として困難です。
この論文では、オーディオ、3Dキュー、マルチビュービデオなどのサイドチャネル信号を使用して、事前に訓練されたビデオLLMを下流のタスクに適応させるための柔軟なフレームワークであるPaveを紹介します。
Paveは、「パッチ」と呼ばれる軽量アダプターを導入し、アーキテクチャや事前に訓練された重みを変更せずに、少数のパラメーターと操作をベースモデルに追加します。
そうすることで、Paveは事前に訓練されたベースモデルを効果的に適応させて、オーディオビジュアル質問の回答、3D推論、マルチビュービデオ認識、高フレームレートのビデオ理解など、多様なダウンストリームタスクをサポートできます。
これらのタスク全体で、Paveはベースモデルのパフォーマンスを大幅に向上させ、最先端のタスク固有のモデルを上回り、0.1%の追加のフロップとパラメーターのわずかなコストを発生させます。
さらに、Paveはマルチタスクの学習をサポートし、さまざまなビデオLLMにわたってよく一般化します。
私たちのコードは、https://github.com/dragonlzm/paveで入手できます。

要約(オリジナル)

Pre-trained video large language models (Video LLMs) exhibit remarkable reasoning capabilities, yet adapting these models to new tasks involving additional modalities or data types (e.g., audio or 3D information) remains challenging. In this paper, we present PAVE, a flexible framework for adapting pre-trained Video LLMs to downstream tasks with side-channel signals, such as audio, 3D cues, or multi-view videos. PAVE introduces lightweight adapters, referred to as ‘patches,’ which add a small number of parameters and operations to a base model without modifying its architecture or pre-trained weights. In doing so, PAVE can effectively adapt the pre-trained base model to support diverse downstream tasks, including audio-visual question answering, 3D reasoning, multi-view video recognition, and high frame rate video understanding. Across these tasks, PAVE significantly enhances the performance of the base model, surpassing state-of-the-art task-specific models while incurring a minor cost of ~0.1% additional FLOPs and parameters. Further, PAVE supports multi-task learning and generalizes well across different Video LLMs. Our code is available at https://github.com/dragonlzm/PAVE.

arxiv情報

著者 Zhuoming Liu,Yiquan Li,Khoi Duc Nguyen,Yiwu Zhong,Yin Li
発行日 2025-03-25 16:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | PAVE: Patching and Adapting Video Large Language Models はコメントを受け付けていません

FrugalNeRF: Fast Convergence for Few-shot Novel View Synthesis without Learned Priors

要約

ニューラル放射輝度(NERF)は、主に過剰適合と長いトレーニング時間のために、極端に少ないショットシナリオで大きな課題に直面しています。
FreenerfやSparsenerfなどの既存の方法は、周波数の正則化または事前に訓練された事前化を使用しますが、複雑なスケジューリングとバイアスに苦労しています。
Frugalnerfを紹介します。Frugalnerfは、複数のスケールで重量共有ボクセルを活用してシーンの詳細を効率的に表す新しい少数のショットNERFフレームワークです。
私たちの主な貢献は、スケール全体の再注入誤差に基づいて擬似グラウンドの真理の深さを選択するクロススケールの幾何学的適応スキームです。
これは、外部から学習した事前に頼らずにトレーニングをガイドし、トレーニングデータを完全に利用できるようにします。
また、事前に訓練されたプライアーを統合し、収束を遅くすることなく品質を向上させることができます。
LLFF、DTU、およびRealestate-10Kの実験は、Frugalnerfがトレーニング時間を大幅に短縮しながら、他の少数のショットNERFメソッドを上回ることを示しており、効率的で正確な3Dシーンの再構築のための実用的なソリューションになっています。

要約(オリジナル)

Neural Radiance Fields (NeRF) face significant challenges in extreme few-shot scenarios, primarily due to overfitting and long training times. Existing methods, such as FreeNeRF and SparseNeRF, use frequency regularization or pre-trained priors but struggle with complex scheduling and bias. We introduce FrugalNeRF, a novel few-shot NeRF framework that leverages weight-sharing voxels across multiple scales to efficiently represent scene details. Our key contribution is a cross-scale geometric adaptation scheme that selects pseudo ground truth depth based on reprojection errors across scales. This guides training without relying on externally learned priors, enabling full utilization of the training data. It can also integrate pre-trained priors, enhancing quality without slowing convergence. Experiments on LLFF, DTU, and RealEstate-10K show that FrugalNeRF outperforms other few-shot NeRF methods while significantly reducing training time, making it a practical solution for efficient and accurate 3D scene reconstruction.

arxiv情報

著者 Chin-Yang Lin,Chung-Ho Wu,Chang-Han Yeh,Shih-Han Yen,Cheng Sun,Yu-Lun Liu
発行日 2025-03-25 16:05:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FrugalNeRF: Fast Convergence for Few-shot Novel View Synthesis without Learned Priors はコメントを受け付けていません

Unpaired Object-Level SAR-to-Optical Image Translation for Aircraft with Keypoints-Guided Diffusion Models

要約

合成開口レーダー(SAR)画像は、全天候型、終日、高解像度のイメージング機能を提供しますが、そのユニークなイメージングメカニズムにより、特に複雑なターゲットタスクで解釈可能性を制限し、専門知識に大きく依存して解釈が依存します。
SAR画像を光画像に変換することは、解釈を強化し、下流タスクをサポートするための有望なソリューションです。
ほとんどの既存の研究は、ペアのデータが不足しているため、オブジェクトレベルの翻訳に関する制限の作業と、輪郭とテクスチャの詳細を正確に保存するという課題により、オブジェクトレベルの翻訳に関する限られた作業があります。
これらの問題に対処するために、この研究では、対応のない航空機のターゲットのSARからオプテ​​ィカル画像翻訳のためのキーポイント誘導拡散モデル(keypointDiff)を提案しています。
このフレームワークでは、ターゲットクラスとキーポイントを介した方位角の監督と、対応のないデータのトレーニング戦略を紹介します。
分類器のないガイダンス拡散アーキテクチャに基づいて、クラスアングルガイダンスモジュール(CAGM)は、クラスと角度の情報を拡散生成プロセスに統合するように設計されています。
さらに、航空機のターゲットに合わせて調整された画像の忠実度と詳細品質を改善するために、敵対的な損失と一貫性の損失が採用されています。
事前に訓練されたキーポイント検出器によって支援されたサンプリング中、このモデルは、手動でラベル付けされたクラスと方位角情報の要件を排除し、自動化されたSARから光への翻訳を可能にします。
実験結果は、提案された方法が複数のメトリックにわたって既存のアプローチよりも優れていることを示しており、オブジェクトレベルのSARから眼への翻訳および下流タスクに効率的かつ効果的なソリューションを提供します。
さらに、この方法は、キーポイント検出器の支援を受けて、訓練されていない航空機の種類に強いゼロショットの一般化を示します。

要約(オリジナル)

Synthetic Aperture Radar (SAR) imagery provides all-weather, all-day, and high-resolution imaging capabilities but its unique imaging mechanism makes interpretation heavily reliant on expert knowledge, limiting interpretability, especially in complex target tasks. Translating SAR images into optical images is a promising solution to enhance interpretation and support downstream tasks. Most existing research focuses on scene-level translation, with limited work on object-level translation due to the scarcity of paired data and the challenge of accurately preserving contour and texture details. To address these issues, this study proposes a keypoint-guided diffusion model (KeypointDiff) for SAR-to-optical image translation of unpaired aircraft targets. This framework introduces supervision on target class and azimuth angle via keypoints, along with a training strategy for unpaired data. Based on the classifier-free guidance diffusion architecture, a class-angle guidance module (CAGM) is designed to integrate class and angle information into the diffusion generation process. Furthermore, adversarial loss and consistency loss are employed to improve image fidelity and detail quality, tailored for aircraft targets. During sampling, aided by a pre-trained keypoint detector, the model eliminates the requirement for manually labeled class and azimuth information, enabling automated SAR-to-optical translation. Experimental results demonstrate that the proposed method outperforms existing approaches across multiple metrics, providing an efficient and effective solution for object-level SAR-to-optical translation and downstream tasks. Moreover, the method exhibits strong zero-shot generalization to untrained aircraft types with the assistance of the keypoint detector.

arxiv情報

著者 Ruixi You,Hecheng Jia,Feng Xu
発行日 2025-03-25 16:05:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Unpaired Object-Level SAR-to-Optical Image Translation for Aircraft with Keypoints-Guided Diffusion Models はコメントを受け付けていません

EmoAttack: Emotion-to-Image Diffusion Models for Emotional Backdoor Generation

要約

テキストからイメージまでの拡散モデルは、テキスト入力に基づいて現実的な画像を生成し、ユーザーが言語を通じて視覚的に意見を伝えることができます。
一方、言語の中で、感情は私たちの日常生活で個人的な意見を表現する上で重要な役割を果たし、悪意のあるネガティブなコンテンツを含めることで、ユーザーが迷って否定的な感情を悪化させることができます。
拡散モデルの成功と感情の重要性を認識すると、テキストからイメージへの拡散モデルに関連する以前に見落とされがちなリスク、つまり入力テキストに感情を利用してネガティブなコンテンツを導入し、ユーザーに不利な感情を引き起こすことを調査します。
具体的には、新しいバックドア攻撃、すなわち、感情に気付くバックドア攻撃(emoattack)を特定します。これは、画像生成中に感情的なテキストによってトリガーされる悪意のあるネガティブコンテンツを導入します。
広範なモデル再訓練を回避し、エモブースを提案するために、拡散パーソナライズの問題としてこのような攻撃を策定します。
既存のパーソナライズ方法とは異なり、私たちのアプローチは、感情的な単語のクラスターと悪意のあるネガティブコンテンツを含む特定の参照画像の間のマッピングを確立することにより、事前に訓練された拡散モデルを微調整します。
メソッドの有効性を検証するために、データセットを構築し、その有効性に関する広範な分析と議論を実施しました。
消費者の拡散モデルの広範な使用を考えると、この脅威を明らかにすることは社会にとって重要です。

要約(オリジナル)

Text-to-image diffusion models can generate realistic images based on textual inputs, enabling users to convey their opinions visually through language. Meanwhile, within language, emotion plays a crucial role in expressing personal opinions in our daily lives and the inclusion of maliciously negative content can lead users astray, exacerbating negative emotions. Recognizing the success of diffusion models and the significance of emotion, we investigate a previously overlooked risk associated with text-to-image diffusion models, that is, utilizing emotion in the input texts to introduce negative content and provoke unfavorable emotions in users. Specifically, we identify a new backdoor attack, i.e., emotion-aware backdoor attack (EmoAttack), which introduces malicious negative content triggered by emotional texts during image generation. We formulate such an attack as a diffusion personalization problem to avoid extensive model retraining and propose the EmoBooth. Unlike existing personalization methods, our approach fine-tunes a pre-trained diffusion model by establishing a mapping between a cluster of emotional words and a given reference image containing malicious negative content. To validate the effectiveness of our method, we built a dataset and conducted extensive analysis and discussion about its effectiveness. Given consumers’ widespread use of diffusion models, uncovering this threat is critical for society.

arxiv情報

著者 Tianyu Wei,Shanmin Pang,Qi Guo,Yizhuo Ma,Xiaofeng Cao,Ming-Ming Cheng,Qing Guo
発行日 2025-03-25 16:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EmoAttack: Emotion-to-Image Diffusion Models for Emotional Backdoor Generation はコメントを受け付けていません

SeLIP: Similarity Enhanced Contrastive Language Image Pretraining for Multi-modal Head MRI

要約

その深い学習(DL)の方法は多くの医療画像分析タスクで大きな可能性を示していますが、手動注釈付きの十分なデータサンプルが不足しているため、医療DLモデルの実用的なアプリケーションは限られています。
臨床放射線検査は、画像を説明する放射線レポートに関連付けられていることに注意することにより、画像と対応する放射線科の調査結果で対照的な学習を使用して、マルチモデルヘッドMRIの基礎モデルを開発することを提案します。
特に、対照的な学習フレームワークが提案されています。ここでは、従来の対照学習フレームワークにおける極端な大きなデータセットの渇きを減らすために、混合構文とセマンティックの類似性マッチングメトリックが統合されています。
提案された類似性強化コントラスト言語イメージ前削除(SELIP)は、より有用な機能を効果的に抽出することができます。
実験により、提案されたSELIPは、画像テキスト検索タスク、分類タスク、画像セグメンテーションなど、多くの下流タスクでうまく機能することが明らかになりました。これは、医療画像基礎モデルの開発におけるさまざまな画像を説明するテキスト間の類似性を考慮することの重要性を強調しています。

要約(オリジナル)

Despite that deep learning (DL) methods have presented tremendous potential in many medical image analysis tasks, the practical applications of medical DL models are limited due to the lack of enough data samples with manual annotations. By noting that the clinical radiology examinations are associated with radiology reports that describe the images, we propose to develop a foundation model for multi-model head MRI by using contrastive learning on the images and the corresponding radiology findings. In particular, a contrastive learning framework is proposed, where a mixed syntax and semantic similarity matching metric is integrated to reduce the thirst of extreme large dataset in conventional contrastive learning framework. Our proposed similarity enhanced contrastive language image pretraining (SeLIP) is able to effectively extract more useful features. Experiments revealed that our proposed SeLIP performs well in many downstream tasks including image-text retrieval task, classification task, and image segmentation, which highlights the importance of considering the similarities among texts describing different images in developing medical image foundation models.

arxiv情報

著者 Zhiyang Liu,Dong Yang,Minghao Zhang,Hanyu Sun,Hong Wu,Huiying Wang,Wen Shen,Chao Chai,Shuang Xia
発行日 2025-03-25 16:09:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SeLIP: Similarity Enhanced Contrastive Language Image Pretraining for Multi-modal Head MRI はコメントを受け付けていません

SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes

要約

3Dガウススプラッティング(3DG)と物理ベースのレンダリング(PBR)および変形場を組み合わせて、動的な鏡面シーンを再構築する新しいアプローチであるSpectromotionを提示します。
動的シーンをモデル化するために3DGを拡張する以前の方法は、鏡面表面を正確に表すのに苦労しています。
私たちの方法は、時変照明条件に適応する変形可能な環境マップによって補完される、変形中に正確な表面正常計算のための残留補正技術を導入することにより、この制限に対処します。
シーンのジオメトリと鏡面色の色の予測を大幅に強化する粗からファイントレーニング戦略を実装します。
これは、複雑、動的、鏡面シーンをレンダリングする際に最先端の方法を上回る、光リアリスティックな現実世界の動的なシーンを合成できる唯一の既存の3DGSメソッドです。

要約(オリジナル)

We present SpectroMotion, a novel approach that combines 3D Gaussian Splatting (3DGS) with physically-based rendering (PBR) and deformation fields to reconstruct dynamic specular scenes. Previous methods extending 3DGS to model dynamic scenes have struggled to represent specular surfaces accurately. Our method addresses this limitation by introducing a residual correction technique for accurate surface normal computation during deformation, complemented by a deformable environment map that adapts to time-varying lighting conditions. We implement a coarse-to-fine training strategy significantly enhancing scene geometry and specular color prediction. It is the only existing 3DGS method capable of synthesizing photorealistic real-world dynamic specular scenes, outperforming state-of-the-art methods in rendering complex, dynamic, and specular scenes.

arxiv情報

著者 Cheng-De Fan,Chen-Wei Chang,Yi-Ruei Liu,Jie-Ying Lee,Jiun-Long Huang,Yu-Chee Tseng,Yu-Lun Liu
発行日 2025-03-25 16:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes はコメントを受け付けていません