RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird’s Eye View for 3D Object Detection

要約

最近の低コストのレーダーカメラアプローチは、マルチモーダル3Dオブジェクト検出で有望な結果を示していますが、両方のセンサーは環境および固有の障害からの課題に直面しています。
照明の悪さや有害な気象条件はカメラの性能を低下させますが、レーダーは騒音と位置的な曖昧さに苦しんでいます。
堅牢なレーダーカメラ3Dオブジェクトの検出を達成するには、さまざまな条件全体で一貫したパフォーマンスが必要です。これは、まだ完全に調査されていないトピックです。
この作業では、まず、5種類のノイズでレーダーカメラ検出における堅牢性の体系的な分析を実施し、BEVの堅牢なオブジェクト検出モデルであるRoburcdetを提案します。
具体的には、3Dガウス拡張(3DGE)モジュールを設計して、位置、レーダー断面(RCS)、速度を含むレーダーポイントの不正確さを軽減します。
3DGEは、RCSと速度プライアーを使用して、変形可能なカーネルマップとカーネルサイズの調整と値分布の分散を生成します。
さらに、カメラ信号の信頼性に基づいてレーダーとカメラの機能を適応的に融合する気象適応融合モジュールを紹介します。
人気のあるベンチマークであるNuscenesでの広範な実験は、私たちのモデルが定期的かつ騒々しい条件で競争の激しい結果を達成することを示しています。

要約(オリジナル)

While recent low-cost radar-camera approaches have shown promising results in multi-modal 3D object detection, both sensors face challenges from environmental and intrinsic disturbances. Poor lighting or adverse weather conditions degrade camera performance, while radar suffers from noise and positional ambiguity. Achieving robust radar-camera 3D object detection requires consistent performance across varying conditions, a topic that has not yet been fully explored. In this work, we first conduct a systematic analysis of robustness in radar-camera detection on five kinds of noises and propose RobuRCDet, a robust object detection model in BEV. Specifically, we design a 3D Gaussian Expansion (3DGE) module to mitigate inaccuracies in radar points, including position, Radar Cross-Section (RCS), and velocity. The 3DGE uses RCS and velocity priors to generate a deformable kernel map and variance for kernel size adjustment and value distribution. Additionally, we introduce a weather-adaptive fusion module, which adaptively fuses radar and camera features based on camera signal confidence. Extensive experiments on the popular benchmark, nuScenes, show that our model achieves competitive results in regular and noisy conditions.

arxiv情報

著者 Jingtong Yue,Zhiwei Lin,Xin Lin,Xiaoyu Zhou,Xiangtai Li,Lu Qi,Yongtao Wang,Ming-Hsuan Yang
発行日 2025-02-18 17:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird’s Eye View for 3D Object Detection はコメントを受け付けていません

Multi-scale Attention Guided Pose Transfer

要約

ポーズ転送とは、異なるポーズをとっている人の別のイメージから、以前に見えなかった小説ポーズを持つ人の確率的イメージ生成を指します。
潜在的な学術および商業アプリケーションのため、この問題は近年広範囲に研究されています。
問題へのさまざまなアプローチの中で、注意ガイド付きプログレッシブ生成は、ほとんどの場合、最新の結果を生み出すことが示されています。
このペーパーでは、エンコーダとデコーダーのすべての解像度レベルで注意リンクを導入することにより、ポーズ転送のための改善されたネットワークアーキテクチャを紹介します。
このような密なマルチスケールの注意ガイドアプローチを利用することにより、視覚的および分析的に既存の方法よりも大幅な改善を達成することができます。
DeepFashionデータセット上のいくつかの既存のメソッドとの広範な定性的および定量的比較で、調査結果を締めくくります。

要約(オリジナル)

Pose transfer refers to the probabilistic image generation of a person with a previously unseen novel pose from another image of that person having a different pose. Due to potential academic and commercial applications, this problem is extensively studied in recent years. Among the various approaches to the problem, attention guided progressive generation is shown to produce state-of-the-art results in most cases. In this paper, we present an improved network architecture for pose transfer by introducing attention links at every resolution level of the encoder and decoder. By utilizing such dense multi-scale attention guided approach, we are able to achieve significant improvement over the existing methods both visually and analytically. We conclude our findings with extensive qualitative and quantitative comparisons against several existing methods on the DeepFashion dataset.

arxiv情報

著者 Prasun Roy,Saumik Bhattacharya,Subhankar Ghosh,Umapada Pal
発行日 2025-02-18 17:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Multi-scale Attention Guided Pose Transfer はコメントを受け付けていません

BenthicNet: A global compilation of seafloor images for deep learning applications

要約

水中イメージングの進歩により、重要な底生生態系の監視に必要な広範な海底画像データセットの収集を可能にします。
海底画像を収集する能力は、この重要な環境情報の動員を妨げ、それを分析する能力を上回っています。
機械学習アプローチは、海底の画像が分析される効率を高める機会を提供しますが、そのようなアプローチの開発をサポートするための大きくて一貫したデータセットは希少です。
ここでは、BenthicNet:大規模な画像認識モデルのトレーニングと評価をサポートするために設計された海底画像のグローバルな編集を示します。
130万枚の画像の代表的なサブセットを使用して、海底環境の多様性を表すために、1,140万枚以上の画像の初期セットが収集され、キュレーションされました。
これらには、190,000個の画像に及ぶCatamiスキームに翻訳された310万個の注釈が伴います。
このコンピレーションで大規模な深い学習モデルが訓練され、予備的な結果は、大小の画像分析タスクを自動化するためのユーティリティがあることを示唆しています。
コンピレーションとモデルは、https://doi.org/10.20383/103.0614で再利用できるようになります。

要約(オリジナル)

Advances in underwater imaging enable collection of extensive seafloor image datasets necessary for monitoring important benthic ecosystems. The ability to collect seafloor imagery has outpaced our capacity to analyze it, hindering mobilization of this crucial environmental information. Machine learning approaches provide opportunities to increase the efficiency with which seafloor imagery is analyzed, yet large and consistent datasets to support development of such approaches are scarce. Here we present BenthicNet: a global compilation of seafloor imagery designed to support the training and evaluation of large-scale image recognition models. An initial set of over 11.4 million images was collected and curated to represent a diversity of seafloor environments using a representative subset of 1.3 million images. These are accompanied by 3.1 million annotations translated to the CATAMI scheme, which span 190,000 of the images. A large deep learning model was trained on this compilation and preliminary results suggest it has utility for automating large and small-scale image analysis tasks. The compilation and model are made openly available for reuse at https://doi.org/10.20383/103.0614.

arxiv情報

著者 Scott C. Lowe,Benjamin Misiuk,Isaac Xu,Shakhboz Abdulazizov,Amit R. Baroi,Alex C. Bastos,Merlin Best,Vicki Ferrini,Ariell Friedman,Deborah Hart,Ove Hoegh-Guldberg,Daniel Ierodiaconou,Julia Mackin-McLaughlin,Kathryn Markey,Pedro S. Menandro,Jacquomo Monk,Shreya Nemani,John O’Brien,Elizabeth Oh,Luba Y. Reshitnyk,Katleen Robert,Chris M. Roelfsema,Jessica A. Sameoto,Alexandre C. G. Schimel,Jordan A. Thomson,Brittany R. Wilson,Melisa C. Wong,Craig J. Brown,Thomas Trappenberg
発行日 2025-02-18 17:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | BenthicNet: A global compilation of seafloor images for deep learning applications はコメントを受け付けていません

TIPS: Text-Induced Pose Synthesis

要約

コンピュータービジョンでは、人間のポーズ統合と転送は、その人のすでに利用可能な観察から、以前に見えなかったポーズの人の確率的イメージ生成との取引をします。
研究者は最近、このタスクを達成するためのいくつかの方法を提案しましたが、これらの手法のほとんどは、特定のデータセット上の目的のターゲット画像からターゲットポーズを直接導き出し、ターゲット画像の生成として現実世界のシナリオで適用することを困難にしています。
実際の目的です。
この論文では、最初に現在のポーズ転送アルゴリズムの欠点を提示し、次にこれらの問題に対処するための新しいテキストベースのポーズ転送手法を提案します。
問題を3つの独立した段階に分割します。(a)表現のポーズ、(b)洗練、(c)レンダリングのポーズ。
私たちの知る限り、これはテキストベースのポーズ転送フレームワークを開発する最初の試みの1つであり、Deepfashion Datasetの画像に記述的なポーズ注釈を追加することにより、新しいデータセットDFパスも導入します。
提案された方法は、実験で重要な定性的および定量的スコアを持つ有望な結果を生成します。

要約(オリジナル)

In computer vision, human pose synthesis and transfer deal with probabilistic image generation of a person in a previously unseen pose from an already available observation of that person. Though researchers have recently proposed several methods to achieve this task, most of these techniques derive the target pose directly from the desired target image on a specific dataset, making the underlying process challenging to apply in real-world scenarios as the generation of the target image is the actual aim. In this paper, we first present the shortcomings of current pose transfer algorithms and then propose a novel text-based pose transfer technique to address those issues. We divide the problem into three independent stages: (a) text to pose representation, (b) pose refinement, and (c) pose rendering. To the best of our knowledge, this is one of the first attempts to develop a text-based pose transfer framework where we also introduce a new dataset DF-PASS, by adding descriptive pose annotations for the images of the DeepFashion dataset. The proposed method generates promising results with significant qualitative and quantitative scores in our experiments.

arxiv情報

著者 Prasun Roy,Subhankar Ghosh,Saumik Bhattacharya,Umapada Pal,Michael Blumenstein
発行日 2025-02-18 17:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | TIPS: Text-Induced Pose Synthesis はコメントを受け付けていません

L4P: Low-Level 4D Vision Perception Unified

要約

ビデオのピクセル間の時空間的関係は、低レベルの4D知覚の重要な情報をもたらします。
それについて推論する単一のモデルは、そのようないくつかのタスクをうまく解決できるはずです。
しかし、ほとんどの最先端の方法は、手元のタスクに特化したアーキテクチャに依存しています。
L4P(「ラップ」と発音)を提示します。これは、統一されたフレームワークで低レベルの4D認識タスクを解決するフィードフォワードの汎用アーキテクチャです。
L4Pは、VITベースのバックボーンと軽量であるため、大規模なトレーニングを必要としないタスクあたりのヘッドを組み合わせています。
一般的かつフィードフォワードの定式化にもかかわらず、私たちの方法は、深さや光の流れの推定など、2D/3D追跡などのスパースタスクなど、両方の密なタスクで既存の特殊な方法のパフォーマンスと一致または上回ります。
さらに、個々のシングルタスクメソッドのタスクに匹敵する時間に、これらすべてのタスクを一度に解決します。

要約(オリジナル)

The spatio-temporal relationship between the pixels of a video carries critical information for low-level 4D perception. A single model that reasons about it should be able to solve several such tasks well. Yet, most state-of-the-art methods rely on architectures specialized for the task at hand. We present L4P (pronounced ‘LAP’), a feedforward, general-purpose architecture that solves low-level 4D perception tasks in a unified framework. L4P combines a ViT-based backbone with per-task heads that are lightweight and therefore do not require extensive training. Despite its general and feedforward formulation, our method matches or surpasses the performance of existing specialized methods on both dense tasks, such as depth or optical flow estimation, and sparse tasks, such as 2D/3D tracking. Moreover, it solves all those tasks at once in a time comparable to that of individual single-task methods.

arxiv情報

著者 Abhishek Badki,Hang Su,Bowen Wen,Orazio Gallo
発行日 2025-02-18 17:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | L4P: Low-Level 4D Vision Perception Unified はコメントを受け付けていません

Personalized Image Generation with Deep Generative Models: A Decade Survey

要約

生成モデルの最近の進歩により、パーソナライズされたコンテンツ作成の開発が大幅に促進されました。
ユーザー固有の概念を備えた小さな画像のセットを考えると、パーソナライズされた画像生成により、指定された概念を組み込んで提供されたテキストの説明に付着する画像を作成できます。
コンテンツの作成における幅広いアプリケーションのため、近年この分野に多大な努力が払われています。
それにもかかわらず、パーソナライズに使用されるテクノロジーは、個別の相互に関連するコンポーネントとともに、生成モデルの開発とともに進化してきました。
この調査では、従来のGAN、現代のテキストからイメージまでの拡散モデル、新たなマルチモデル自己回帰モデルなど、さまざまな生成モデルにわたって一般化されたパーソナライズされた画像生成の包括的なレビューを提示します。
最初に、3つの重要なコンポーネント、つまり反転スペース、反転方法、パーソナライズスキームを含む、さまざまな生成モデルにわたってパーソナライズプロセスを標準化する統一されたフレームワークを定義します。
この統一されたフレームワークは、さまざまな生成アーキテクチャにわたってパーソナライズ手法を分析および比較するための構造化されたアプローチを提供します。
この統一されたフレームワークに基づいて、各生成モデル内のパーソナライズ技術の詳細な分析を提供し、独自の貢献と革新を強調します。
比較分析を通じて、この調査では、パーソナライズされた画像生成の現在の状況を解明し、既存の方法の共通性と際立った特徴を特定します。
最後に、この分野でのオープンな課題について説明し、将来の研究の潜在的な方向性を提案します。
https://github.com/csyxwei/awesome-personalized-image-generationで関連する作品を追跡し続けています。

要約(オリジナル)

Recent advancements in generative models have significantly facilitated the development of personalized content creation. Given a small set of images with user-specific concept, personalized image generation allows to create images that incorporate the specified concept and adhere to provided text descriptions. Due to its wide applications in content creation, significant effort has been devoted to this field in recent years. Nonetheless, the technologies used for personalization have evolved alongside the development of generative models, with their distinct and interrelated components. In this survey, we present a comprehensive review of generalized personalized image generation across various generative models, including traditional GANs, contemporary text-to-image diffusion models, and emerging multi-model autoregressive models. We first define a unified framework that standardizes the personalization process across different generative models, encompassing three key components, i.e., inversion spaces, inversion methods, and personalization schemes. This unified framework offers a structured approach to dissecting and comparing personalization techniques across different generative architectures. Building upon this unified framework, we further provide an in-depth analysis of personalization techniques within each generative model, highlighting their unique contributions and innovations. Through comparative analysis, this survey elucidates the current landscape of personalized image generation, identifying commonalities and distinguishing features among existing methods. Finally, we discuss the open challenges in the field and propose potential directions for future research. We keep tracing related works at https://github.com/csyxwei/Awesome-Personalized-Image-Generation.

arxiv情報

著者 Yuxiang Wei,Yiheng Zheng,Yabo Zhang,Ming Liu,Zhilong Ji,Lei Zhang,Wangmeng Zuo
発行日 2025-02-18 17:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Personalized Image Generation with Deep Generative Models: A Decade Survey はコメントを受け付けていません

Scene Aware Person Image Generation through Global Contextual Conditioning

要約

人のイメージ生成は、興味をそそるが挑戦的な問題です。
ただし、制約された状況では、このタスクはさらに困難になります。
この作業では、グローバルなセマンティクスを維持しながら、既存のシーンにコンテキストに関連する個人の画像を生成および挿入するための新しいパイプラインを提案します。
より具体的には、挿入される人の場所、ポーズ、および規模が現場の既存の人と融合するように、人を挿入することを目指しています。
この方法では、シーケンシャルパイプラインで3つの個別のネットワークを使用しています。
最初は、現場に存在する既存の人間の骨格にwasserstein生成敵対的なネットワーク(WGAN)を条件付けることにより、新しい人の潜在的な位置と骨格構造を予測します。
次に、予測されたスケルトンは、浅い線形ネットワークを介して洗練され、生成された画像でより高い構造精度を実現します。
最後に、ターゲット画像は、ターゲットの特定の画像に条件付けられた別の生成ネットワークを使用して、洗練されたスケルトンから生成されます。
実験では、シーンの一般的なコンテキストを維持しながら、高解像度の写真リアリスティック生成結果を達成します。
結果について、複数の定性的および定量的ベンチマークで論文を締めくくります。

要約(オリジナル)

Person image generation is an intriguing yet challenging problem. However, this task becomes even more difficult under constrained situations. In this work, we propose a novel pipeline to generate and insert contextually relevant person images into an existing scene while preserving the global semantics. More specifically, we aim to insert a person such that the location, pose, and scale of the person being inserted blends in with the existing persons in the scene. Our method uses three individual networks in a sequential pipeline. At first, we predict the potential location and the skeletal structure of the new person by conditioning a Wasserstein Generative Adversarial Network (WGAN) on the existing human skeletons present in the scene. Next, the predicted skeleton is refined through a shallow linear network to achieve higher structural accuracy in the generated image. Finally, the target image is generated from the refined skeleton using another generative network conditioned on a given image of the target person. In our experiments, we achieve high-resolution photo-realistic generation results while preserving the general context of the scene. We conclude our paper with multiple qualitative and quantitative benchmarks on the results.

arxiv情報

著者 Prasun Roy,Subhankar Ghosh,Saumik Bhattacharya,Umapada Pal,Michael Blumenstein
発行日 2025-02-18 17:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Scene Aware Person Image Generation through Global Contextual Conditioning はコメントを受け付けていません

Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling

要約

この論文では、ユーザーの指示に従って画像が合成される条件付き画像生成のタスクに焦点を当てています。
このタスクを支える重要な課題は、生成された画像の忠実度と、提供された条件とのセマンティックアライメントの両方を確保することです。
この問題に取り組むために、以前の研究では、事前に訓練されたモデルから派生した監督された知覚損失、つまり報酬モデルを採用して、条件と生成された結果の間の調整を実施しています。
ただし、1つの固有の欠点が観察されます。合成画像の多様性を考慮すると、報酬モデルは通常、トレーニングプロセスを損なう可能性のある新しく生成されたデータに遭遇したときに不正確なフィードバックを提供します。
この制限に対処するために、CTRL-Uと呼ばれる不確実な報酬モデリングを提案します。これには、不確実性の推定と不確実性を意識した正規化を含み、報酬モデルからの不正確なフィードバックの悪影響を減らすように設計されています。
報酬モデル内の固有の認知的不確実性を考えると、同一の条件下で生成された画像でさえ、報酬の損失に比較的大きな矛盾をもたらすことがよくあります。
観察に触発されて、私たちはそのような予測の差異を不確実性指標として明示的に活用します。
不確実性の推定に基づいて、報酬を適応的に修正することにより、モデルトレーニングを正規化します。
特に、不確実性が低い報酬は、より高い損失の重みを受け取りますが、不確実性が高い人は、より大きな変動を可能にするために減少した重みを与えられます。
提案された不確実性の正則化は、一貫性の構築を通じて報酬の微調整を促進します。
広範な実験では、制御性と生成の品質を改善するための方法論の有効性、および多様な条件付きシナリオ全体のスケーラビリティを検証します。
コードはhttps://grenoble-zhang.github.io/ctrl-u-page/で公開されています。

要約(オリジナル)

In this paper, we focus on the task of conditional image generation, where an image is synthesized according to user instructions. The critical challenge underpinning this task is ensuring both the fidelity of the generated images and their semantic alignment with the provided conditions. To tackle this issue, previous studies have employed supervised perceptual losses derived from pre-trained models, i.e., reward models, to enforce alignment between the condition and the generated result. However, we observe one inherent shortcoming: considering the diversity of synthesized images, the reward model usually provides inaccurate feedback when encountering newly generated data, which can undermine the training process. To address this limitation, we propose an uncertainty-aware reward modeling, called Ctrl-U, including uncertainty estimation and uncertainty-aware regularization, designed to reduce the adverse effects of imprecise feedback from the reward model. Given the inherent cognitive uncertainty within reward models, even images generated under identical conditions often result in a relatively large discrepancy in reward loss. Inspired by the observation, we explicitly leverage such prediction variance as an uncertainty indicator. Based on the uncertainty estimation, we regularize the model training by adaptively rectifying the reward. In particular, rewards with lower uncertainty receive higher loss weights, while those with higher uncertainty are given reduced weights to allow for larger variability. The proposed uncertainty regularization facilitates reward fine-tuning through consistency construction. Extensive experiments validate the effectiveness of our methodology in improving the controllability and generation quality, as well as its scalability across diverse conditional scenarios. Codes are publicly available at https://grenoble-zhang.github.io/Ctrl-U-Page/.

arxiv情報

著者 Guiyu Zhang,Huan-ang Gao,Zijian Jiang,Hao Zhao,Zhedong Zheng
発行日 2025-02-18 17:41:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling はコメントを受け付けていません

Semantically Consistent Person Image Generation

要約

コンテキストを認識している人の画像生成のためのデータ駆動型アプローチを提案します。
具体的には、合成されたインスタンスが複雑なシーンに溶け込むことができるように、個人の画像を生成しようとします。
私たちの方法では、生成された人の位置、スケール、および外観は、現場の既存の人に意味的に条件付けられています。
提案された手法は、3つの順次ステップに分割されます。
最初は、PIX2PIXHDモデルを使用して、新しい人の空間的位置、スケール、および潜在的なポーズを表す粗いセマンティックマスクを推測します。
次に、データ中心のアプローチを使用して、事前に計算されたファインセマンティックマスクのクラスターから最も近い表現を選択します。
最後に、マルチスケールの注意誘導アーキテクチャを採用して、模範的な画像から外観属性を転送します。
提案された戦略により、グローバルなコンテキストを変更せずに既存のシーンに溶け込むことができる、意味的に一貫した現実的な人を統合することができます。
関連する定性的および定量的評価で調査結果を締めくくります。

要約(オリジナル)

We propose a data-driven approach for context-aware person image generation. Specifically, we attempt to generate a person image such that the synthesized instance can blend into a complex scene. In our method, the position, scale, and appearance of the generated person are semantically conditioned on the existing persons in the scene. The proposed technique is divided into three sequential steps. At first, we employ a Pix2PixHD model to infer a coarse semantic mask that represents the new person’s spatial location, scale, and potential pose. Next, we use a data-centric approach to select the closest representation from a precomputed cluster of fine semantic masks. Finally, we adopt a multi-scale, attention-guided architecture to transfer the appearance attributes from an exemplar image. The proposed strategy enables us to synthesize semantically coherent realistic persons that can blend into an existing scene without altering the global context. We conclude our findings with relevant qualitative and quantitative evaluations.

arxiv情報

著者 Prasun Roy,Saumik Bhattacharya,Subhankar Ghosh,Umapada Pal,Michael Blumenstein
発行日 2025-02-18 17:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Semantically Consistent Person Image Generation はコメントを受け付けていません

Understanding and Rectifying Safety Perception Distortion in VLMs

要約

最近の研究では、ビジョンモデル(VLM)がビジョンモダリティを統合した後、有害な要求や脱獄攻撃の影響を受けやすく、テキストのみのLLMバックボーンよりも大きな脆弱性を示していることが明らかになりました。
この現象の根本原因を明らかにするために、詳細な分析を実施し、重要な問題を特定します。マルチモーダル入力は、テキストのみのカウンターパートと比較して、モダリティ誘発性の活性化シフトを「より安全な」方向に向けて導入し、VLMを体系的に過大評価するように導きます
有害な入力の安全性。
この問題を安全性認識の歪みと呼びます。
このような歪みを緩和するために、活性化シフトの解体とキャリブレーション(ShiftDC)を提案します。これは、モダリティ誘発性の活性化シフトを分解およびキャリブレーションして、安全性へのモダリティの影響を減らすことを提案します。
ShiftDCは、安全関連コンポーネントを分離および削除することにより、VLMの視覚言語機能を維持しながら、LLMバックボーンの固有の安全アライメントを復元します。
経験的結果は、ShiftDCがモデルの有用性を損なうことなく安全ベンチマークのアライメント性能を大幅に向上させることを示しています。

要約(オリジナル)

Recent studies reveal that vision-language models (VLMs) become more susceptible to harmful requests and jailbreak attacks after integrating the vision modality, exhibiting greater vulnerability than their text-only LLM backbones. To uncover the root cause of this phenomenon, we conduct an in-depth analysis and identify a key issue: multimodal inputs introduce an modality-induced activation shift toward a ‘safer’ direction compared to their text-only counterparts, leading VLMs to systematically overestimate the safety of harmful inputs. We refer to this issue as safety perception distortion. To mitigate such distortion, we propose Activation Shift Disentanglement and Calibration (ShiftDC), a training-free method that decomposes and calibrates the modality-induced activation shift to reduce the impact of modality on safety. By isolating and removing the safety-relevant component, ShiftDC restores the inherent safety alignment of the LLM backbone while preserving the vision-language capabilities of VLMs. Empirical results demonstrate that ShiftDC significantly enhances alignment performance on safety benchmarks without impairing model utility.

arxiv情報

著者 Xiaohan Zou,Jian Kang,George Kesidis,Lu Lin
発行日 2025-02-18 18:06:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Understanding and Rectifying Safety Perception Distortion in VLMs はコメントを受け付けていません