Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction

要約

大規模で未確認のデータセットでマルチモーダル生成モデルをトレーニングすると、ユーザーが有害、安全で、物議を醸す、または文化的に不適切な出力にさらされる可能性があります。
モデル編集は、埋め込みスペースや潜在スペースで望ましくない概念を削除またはフィルタリングするために提案されていますが、誤って学習されたマニホールドに損傷を与え、概念を密接な意味的に歪めます。
現在のモデル編集手法の制限を特定し、良性の近位概念でさえもずれている可能性があることを示しています。
安全なコンテンツ生成の必要性に対処するために、安全な埋め込みと、潜在的な空間に調整可能な加重合計を備えた修正された拡散プロセスを活用して、より安全な画像を生成します。
私たちの方法は、学習されたマニホールドの構造的完全性を損なうことなく、グローバルなコンテキストを保持します。
安全な画像生成ベンチマークで最新の結果を達成し、モデルの安全性のレベルを直感的に制御します。
安全性と検閲の間のトレードオフを特定します。これは、倫理的AIモデルの開発に必要な視点を提示します。
コードをリリースします。
キーワード:テキストからイメージモデル、生成AI、安全性、信頼性、モデル編集

要約(オリジナル)

Training multimodal generative models on large, uncurated datasets can result in users being exposed to harmful, unsafe and controversial or culturally-inappropriate outputs. While model editing has been proposed to remove or filter undesirable concepts in embedding and latent spaces, it can inadvertently damage learned manifolds, distorting concepts in close semantic proximity. We identify limitations in current model editing techniques, showing that even benign, proximal concepts may become misaligned. To address the need for safe content generation, we leverage safe embeddings and a modified diffusion process with tunable weighted summation in the latent space to generate safer images. Our method preserves global context without compromising the structural integrity of the learned manifolds. We achieve state-of-the-art results on safe image generation benchmarks and offer intuitive control over the level of model safety. We identify trade-offs between safety and censorship, which presents a necessary perspective in the development of ethical AI models. We will release our code. Keywords: Text-to-Image Models, Generative AI, Safety, Reliability, Model Editing

arxiv情報

著者 Jordan Vice,Naveed Akhtar,Mubarak Shah,Richard Hartley,Ajmal Mian
発行日 2025-03-05 14:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction はコメントを受け付けていません

Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection

要約

人間は、オブジェクトが条件付けられた物理的知識に基づいて知覚、相互作用、および推論をすることにより、実際のオブジェクトの異常を検出します。
産業異常検出(IAD)の長期的な目標は、マシンがこのスキルを自律的に複製できるようにすることです。
ただし、現在のIADアルゴリズムは、物理的理解と推論が不可欠な現実世界のシナリオから分岐する静的で意味的に単純なデータセットで主に開発およびテストされています。
実際のロボットアームとモーターを使用して収集されたPhys-ADは、ダイナミックで意味的に豊富なシナリオの多様なセットを提供します。
データセットには、22の実際のオブジェクトカテゴリにわたって6400を超えるビデオが含まれており、ロボットアームやモーターと対話し、47種類の異常を示しています。
物理ADの異常検出には、物理​​的知識とビデオコンテンツの両方を組み合わせてオブジェクトの異常を決定するために視覚的な推論が必要です。私たちは、3つの設定の下で最先端の異常検出方法をベンチマークします。
さらに、視覚言語の基礎モデルが異常を検出するだけでなく、根本的な物理的原因について正確な説明を提供するように設計された物理異常の説明(Paeval)メトリックを紹介します。
データセットとベンチマークは公開されます。

要約(オリジナル)

Humans detect real-world object anomalies by perceiving, interacting, and reasoning based on object-conditioned physical knowledge. The long-term goal of Industrial Anomaly Detection (IAD) is to enable machines to autonomously replicate this skill. However, current IAD algorithms are largely developed and tested on static, semantically simple datasets, which diverge from real-world scenarios where physical understanding and reasoning are essential.To bridge this gap, we introduce the Physics Anomaly Detection (Phys-AD) dataset, the first large-scale, real-world, physics-grounded video dataset for industrial anomaly detection. Collected using a real robot arm and motor, Phys-AD provides a diverse set of dynamic, semantically rich scenarios. The dataset includes more than 6400 videos across 22 real-world object categories, interacting with robot arms and motors, and exhibits 47 types of anomalies. Anomaly detection in Phys-AD requires visual reasoning, combining both physical knowledge and video content to determine object abnormality.We benchmark state-of-the-art anomaly detection methods under three settings: unsupervised AD, weakly-supervised AD, and video-understanding AD, highlighting their limitations in handling physics-grounded anomalies. Additionally, we introduce the Physics Anomaly Explanation (PAEval) metric, designed to assess the ability of visual-language foundation models to not only detect anomalies but also provide accurate explanations for their underlying physical causes. Our dataset and benchmark will be publicly available.

arxiv情報

著者 Wenqiao Li,Yao Gu,Xintao Chen,Xiaohao Xu,Ming Hu,Xiaonan Huang,Yingna Wu
発行日 2025-03-05 14:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection はコメントを受け付けていません

Tiny Robotics Dataset and Benchmark for Continual Object Detection

要約

モバイルロボット工学のオブジェクトの検出は、自律的なナビゲーションから検査まで、多数のアプリケーションにとって重要です。
ただし、ロボットは、訓練されたドメインとは異なるドメインで動作する必要があるため、これらの変更に合わせて調整する必要があります。
サイズ、電源、および計算上の制約を条件として、小さなモバイルロボットは、これらのアルゴリズムの実行と適応にさらに困難に遭遇します。
ただし、このような適応性は、ロボットが動的で予測不可能な設定で効果的に動作する必要がある実際の展開には重要です。
この作業では、小さなロボットプラットフォームのオブジェクト検出システムの継続的な学習機能を評価するための新しいベンチマークを紹介します。
私たちの貢献には、(i)小さなモバイルロボットのオンボードカメラを使用して収集された包括的なデータセットであるTiny Roboticsオブジェクト検出〜(Tirod)が含まれます。
(ii)軽量オブジェクト検出器であるNanodetを使用したこのデータセット上のさまざまな継続学習戦略のベンチマーク。
私たちの結果は、小さなロボット工学のオブジェクト検出器の堅牢で効率的な継続的な学習戦略を開発する際の重要な課題を強調しています。

要約(オリジナル)

Detecting objects in mobile robotics is crucial for numerous applications, from autonomous navigation to inspection. However, robots often need to operate in different domains from those they were trained in, requiring them to adjust to these changes. Tiny mobile robots, subject to size, power, and computational constraints, encounter even more difficulties in running and adapting these algorithms. Such adaptability, though, is crucial for real-world deployment, where robots must operate effectively in dynamic and unpredictable settings. In this work, we introduce a novel benchmark to evaluate the continual learning capabilities of object detection systems in tiny robotic platforms. Our contributions include: (i) Tiny Robotics Object Detection~(TiROD), a comprehensive dataset collected using the onboard camera of a small mobile robot, designed to test object detectors across various domains and classes; (ii) a benchmark of different continual learning strategies on this dataset using NanoDet, a lightweight object detector. Our results highlight key challenges in developing robust and efficient continual learning strategies for object detectors in tiny robotics.

arxiv情報

著者 Francesco Pasti,Riccardo De Monte,Davide Dalle Pezze,Gian Antonio Susto,Nicola Bellotto
発行日 2025-03-05 14:49:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Tiny Robotics Dataset and Benchmark for Continual Object Detection はコメントを受け付けていません

Human-in-the-loop Reasoning For Traffic Sign Detection: Collaborative Approach Yolo With Video-llava

要約

トラフィックサイン認識(TSR)検出は、自律車両の重要なコンポーネントです。
1回だけ(Yolo)は人気のあるリアルタイムオブジェクト検出アルゴリズムですが、データの品質や不利な気象条件(大雨など)などの要因が検出障害につながる可能性があります。
これらの障害は、高速制限標識と30 km/hの標識を誤解するなど、オブジェクト間の視覚的な類似性が存在する場合に特に危険です。
このペーパーでは、ビデオ分析と推論を組み合わせた方法を提案し、特に半リアルワールド条件で、道路速度速度標識を検出する際のヨロの精度を改善するために、人間のループガイドの大きなビジョンモデルを促します。
ビデオラバのガイド付きプロンプトと推論能力がYolosトラフィックサイン検出機能を強化できると仮定されています。
この仮説は、Carla Car Simulatorの録音されたビデオのデータセット内の人間が発表した精度メトリックに基づく評価によってサポートされています。
結果は、ヨロとビデオラバと推論を組み合わせた共同アプローチが、ヨロの検出能力を妨げる大雨や曇りの状態などの挑戦的な状況に効果的に対処できることを示しています。

要約(オリジナル)

Traffic Sign Recognition (TSR) detection is a crucial component of autonomous vehicles. While You Only Look Once (YOLO) is a popular real-time object detection algorithm, factors like training data quality and adverse weather conditions (e.g., heavy rain) can lead to detection failures. These failures can be particularly dangerous when visual similarities between objects exist, such as mistaking a 30 km/h sign for a higher speed limit sign. This paper proposes a method that combines video analysis and reasoning, prompting with a human-in-the-loop guide large vision model to improve YOLOs accuracy in detecting road speed limit signs, especially in semi-real-world conditions. It is hypothesized that the guided prompting and reasoning abilities of Video-LLava can enhance YOLOs traffic sign detection capabilities. This hypothesis is supported by an evaluation based on human-annotated accuracy metrics within a dataset of recorded videos from the CARLA car simulator. The results demonstrate that a collaborative approach combining YOLO with Video-LLava and reasoning can effectively address challenging situations such as heavy rain and overcast conditions that hinder YOLOs detection capabilities.

arxiv情報

著者 Mehdi Azarafza,Fatima Idrees,Ali Ehteshami Bejnordi,Charles Steinmetz,Stefan Henkler,Achim Rettberg
発行日 2025-03-05 15:26:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Human-in-the-loop Reasoning For Traffic Sign Detection: Collaborative Approach Yolo With Video-llava はコメントを受け付けていません

On the Utility of Equivariance and Symmetry Breaking in Deep Learning Architectures on Point Clouds

要約

このホワイトペーパーでは、さまざまな幾何学的複雑さのさまざまなタスクにわたって、ポイントクラウドを使用するモデルのパフォーマンスに影響を与える重要な要因を調査します。
この作業では、Equivariant層によって導入された柔軟性と重量共有のトレードオフを調査し、等虫がパフォーマンスを後押しまたは損なう時期を評価します。
多くの場合、入力としてより多くの情報を提供すると、モデルのパフォーマンスが向上すると主張されています。
ただし、この追加情報が$ \ se(3)$ equivarianceなどの特定のプロパティを壊す場合、有益なままですか?
セグメンテーション、回帰、および複雑さの増加に伴い、セグメンテーション、回帰、および生成タスクをベンチマークすることにより、さまざまなタスクで成功を促進する、等変量および非拡張アーキテクチャの重要な側面を特定します。
厳密な等量性が必要ない場合でも、タスクの複雑さの増加とともにより顕著になります。

要約(オリジナル)

This paper explores the key factors that influence the performance of models working with point clouds, across different tasks of varying geometric complexity. In this work, we explore the trade-offs between flexibility and weight-sharing introduced by equivariant layers, assessing when equivariance boosts or detracts from performance. It is often argued that providing more information as input improves a model’s performance. However, if this additional information breaks certain properties, such as $\SE(3)$ equivariance, does it remain beneficial? We identify the key aspects of equivariant and non-equivariant architectures that drive success in different tasks by benchmarking them on segmentation, regression, and generation tasks across multiple datasets with increasing complexity. We observe a positive impact of equivariance, which becomes more pronounced with increasing task complexity, even when strict equivariance is not required.

arxiv情報

著者 Sharvaree Vadgama,Mohammad Mohaiminul Islam,Domas Buracus,Christian Shewmake,Erik Bekkers
発行日 2025-03-05 15:26:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | On the Utility of Equivariance and Symmetry Breaking in Deep Learning Architectures on Point Clouds はコメントを受け付けていません

REGRACE: A Robust and Efficient Graph-based Re-localization Algorithm using Consistency Evaluation

要約

ループ閉鎖は、特に大規模なナビゲーションのコンテキストで、臭気測定のドリフトを修正し、一貫したマップを作成するために不可欠です。
正確な場所認識のために密な点雲を使用する現在の方法は、計算上の高価なスキャンとスキャンの比較のために十分にスケーリングしません。
代替のオブジェクト中心のアプローチはより効率的ですが、多くの場合、視点の変動に対する感度に苦しんでいます。
この作業では、LiDARベースのサブマップを使用して、再ローカリゼーションのスケーラビリティと視点の違いのこれらの課題に対処する新しいアプローチであるRegraceを紹介します。
ラベル付きオブジェクトごとに回転不変の機能を導入し、グラフニューラルネットワークを介して近隣コンテキストでそれらを強化します。
潜在的な再訪を特定するために、スケーラブルなワードバッグアプローチを採用し、サブマップごとに学習したグローバル機能をプールします。
さらに、距離を埋め込むのではなく、幾何学的な一貫性の手がかりで再訪を定義し、遠く離れたループ閉鎖を認識できるようにします。
私たちの評価は、Regraceが最先端の場所認識と登録ベースラインと比較して同様の結果を達成し、2倍速いことを示しています。

要約(オリジナル)

Loop closures are essential for correcting odometry drift and creating consistent maps, especially in the context of large-scale navigation. Current methods using dense point clouds for accurate place recognition do not scale well due to computationally expensive scan-to-scan comparisons. Alternative object-centric approaches are more efficient but often struggle with sensitivity to viewpoint variation. In this work, we introduce REGRACE, a novel approach that addresses these challenges of scalability and perspective difference in re-localization by using LiDAR-based submaps. We introduce rotation-invariant features for each labeled object and enhance them with neighborhood context through a graph neural network. To identify potential revisits, we employ a scalable bag-of-words approach, pooling one learned global feature per submap. Additionally, we define a revisit with geometrical consistency cues rather than embedding distance, allowing us to recognize far-away loop closures. Our evaluations demonstrate that REGRACE achieves similar results compared to state-of-the-art place recognition and registration baselines while being twice as fast.

arxiv情報

著者 Débora N. P. Oliveira,Joshua Knights,Sebastián Barbas Laina,Simon Boche,Wolfram Burgard,Stefan Leutenegger
発行日 2025-03-05 15:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | REGRACE: A Robust and Efficient Graph-based Re-localization Algorithm using Consistency Evaluation はコメントを受け付けていません

Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception

要約

自律運転のための低コストの視覚中心の3D認識システムは、近年大きな進歩を遂げており、高価なライダーベースの方法へのギャップを狭めています。
カメラベースのシステムが長い検出範囲と有害な照明と気象条件に苦しんでいるため、完全に信頼性の高い代替品になることの主な課題は、堅牢な深さ予測機能にあります。
この作業では、多様な3D認識タスクのための新しいカメラレーダーフュージョンアーキテクチャであるHydraを紹介します。
密集したBev(鳥瞰図)ベースのアーキテクチャの原則に基づいて、Hydraは、2つの異なる表現スペースで相補的なカメラとレーダーの特徴の強度を組み合わせて、ハイブリッド融合アプローチを導入します。
当社の高さのアソシエーショントランスモジュールは、より堅牢で正確な深さ予測を生成するために、視点で既にレーダー機能を活用しています。
BEVでは、レーダー加重された深さの一貫性によって、初期のスパース表現を改良します。
Hydraは、公共のヌスセネスデータセットで64.2 NDS(+1.8)および58.4 AMOTA(+1.5)のカメラレーダー融合のための新しい最先端を達成します。
さらに、私たちの新しい意味的に豊富で空間的に正確なBEV機能は、強力な占有表現に直接変換でき、OCC3Dベンチマークの以前のすべてのカメラベースの方法を印象的な3.7 miouによって破ります。
コードとモデルはhttps://github.com/phi-wol/hydraで入手できます。

要約(オリジナル)

Low-cost, vision-centric 3D perception systems for autonomous driving have made significant progress in recent years, narrowing the gap to expensive LiDAR-based methods. The primary challenge in becoming a fully reliable alternative lies in robust depth prediction capabilities, as camera-based systems struggle with long detection ranges and adverse lighting and weather conditions. In this work, we introduce HyDRa, a novel camera-radar fusion architecture for diverse 3D perception tasks. Building upon the principles of dense BEV (Bird’s Eye View)-based architectures, HyDRa introduces a hybrid fusion approach to combine the strengths of complementary camera and radar features in two distinct representation spaces. Our Height Association Transformer module leverages radar features already in the perspective view to produce more robust and accurate depth predictions. In the BEV, we refine the initial sparse representation by a Radar-weighted Depth Consistency. HyDRa achieves a new state-of-the-art for camera-radar fusion of 64.2 NDS (+1.8) and 58.4 AMOTA (+1.5) on the public nuScenes dataset. Moreover, our new semantically rich and spatially accurate BEV features can be directly converted into a powerful occupancy representation, beating all previous camera-based methods on the Occ3D benchmark by an impressive 3.7 mIoU. Code and models are available at https://github.com/phi-wol/hydra.

arxiv情報

著者 Philipp Wolters,Johannes Gilg,Torben Teepe,Fabian Herzog,Anouar Laouichi,Martin Hofmann,Gerhard Rigoll
発行日 2025-03-05 15:35:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception はコメントを受け付けていません

StdGEN: Semantic-Decomposed 3D Character Generation from Single Images

要約

STDGenは、単一の画像からセマンティックに分解された高品質の3D文字を生成するための革新的なパイプラインであり、仮想現実、ゲーム、映画制作などの幅広いアプリケーションを可能にします。
つまり、3分で、ボディ、衣服、髪などのセマンティックコンポーネントを分離した複雑に詳細な3D文字を生成します。
STDGENの中核には、提案されているセマンティックアウェア大規模再建モデル(S-LRM)があります。これは、マルチビュー画像からジオメトリ、色、およびセマンティクスをフィードフォワード方法で共同で再構築する変圧器ベースの一般化可能なモデルです。
S-LRMによって再構築されたハイブリッド暗黙のフィールドからメッシュを取得するために、微層微分層セマンティック表面抽出スキームが導入されています。
さらに、特殊な効率的なマルチビュー拡散モデルと反復的な多層表面改良モジュールがパイプラインに統合され、高品質の分解可能な3D文字生成が促進されます。
広範な実験は、3Dアニメキャラクター生成における最先端のパフォーマンスを示しており、既存のベースラインを幾何学、テクスチャ、分解性の大きなマージンで超えています。
STDGENは、すぐに使用できるセマンティックデコムポーズ3D文字を提供し、幅広いアプリケーションに柔軟なカスタマイズを可能にします。
プロジェクトページ:https://stdgen.github.io

要約(オリジナル)

We present StdGEN, an innovative pipeline for generating semantically decomposed high-quality 3D characters from single images, enabling broad applications in virtual reality, gaming, and filmmaking, etc. Unlike previous methods which struggle with limited decomposability, unsatisfactory quality, and long optimization times, StdGEN features decomposability, effectiveness and efficiency; i.e., it generates intricately detailed 3D characters with separated semantic components such as the body, clothes, and hair, in three minutes. At the core of StdGEN is our proposed Semantic-aware Large Reconstruction Model (S-LRM), a transformer-based generalizable model that jointly reconstructs geometry, color and semantics from multi-view images in a feed-forward manner. A differentiable multi-layer semantic surface extraction scheme is introduced to acquire meshes from hybrid implicit fields reconstructed by our S-LRM. Additionally, a specialized efficient multi-view diffusion model and an iterative multi-layer surface refinement module are integrated into the pipeline to facilitate high-quality, decomposable 3D character generation. Extensive experiments demonstrate our state-of-the-art performance in 3D anime character generation, surpassing existing baselines by a significant margin in geometry, texture and decomposability. StdGEN offers ready-to-use semantic-decomposed 3D characters and enables flexible customization for a wide range of applications. Project page: https://stdgen.github.io

arxiv情報

著者 Yuze He,Yanning Zhou,Wang Zhao,Zhongkai Wu,Kaiwen Xiao,Wei Yang,Yong-Jin Liu,Xiao Han
発行日 2025-03-05 15:51:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | StdGEN: Semantic-Decomposed 3D Character Generation from Single Images はコメントを受け付けていません

CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP

要約

画像テキストマッチングタスクでの一般的な使用は、ゼロショットの方法で使用されていますが、クリップは画像に追加された敵対的な摂動に対して非常に脆弱であることが示されています。
最近の研究では、その場で生成された敵対的なサンプルでクリップのビジョンエンコーダーを微調整し、ゼロショットの堅牢性と呼ばれるプロパティの下流データセットのスペクトルに対する敵対的な攻撃に対する堅牢性の改善を示しています。
この論文では、分類損失を最大化しようとする悪意のある摂動は、「誤って安定した」画像につながり、クリップの事前に訓練されたビジョンエンコーダーを活用して、堅牢性を達成するためにそのような敵対的な画像を反撃することを提案することを示します。
私たちのパラダイムはシンプルでトレーニングなしで、テスト時に敵対的な攻撃からクリップを守る最初の方法を提供します。これは、クリップのゼロショット敵対的堅牢性を高めることを目的とした既存の方法に直交します。
16の分類データセットで実験を実施し、クリーン画像のパフォーマンスを顕著に損なうことなく、外部ネットワークに依存しない既存の敵対的な堅牢性研究から適応したテスト時間防御方法と比較して、安定した一貫したゲインを実証します。
また、私たちのパラダイムは、テスト時に堅牢性をさらに高めるために敵対的に微調整されたクリップモデルに使用できることを示しています。
私たちのコードは\ href {https://github.com/sxing2/clip-test-time-counterAttacks} {ここで}利用可能です。

要約(オリジナル)

Despite its prevalent use in image-text matching tasks in a zero-shot manner, CLIP has been shown to be highly vulnerable to adversarial perturbations added onto images. Recent studies propose to finetune the vision encoder of CLIP with adversarial samples generated on the fly, and show improved robustness against adversarial attacks on a spectrum of downstream datasets, a property termed as zero-shot robustness. In this paper, we show that malicious perturbations that seek to maximise the classification loss lead to `falsely stable’ images, and propose to leverage the pre-trained vision encoder of CLIP to counterattack such adversarial images during inference to achieve robustness. Our paradigm is simple and training-free, providing the first method to defend CLIP from adversarial attacks at test time, which is orthogonal to existing methods aiming to boost zero-shot adversarial robustness of CLIP. We conduct experiments across 16 classification datasets, and demonstrate stable and consistent gains compared to test-time defence methods adapted from existing adversarial robustness studies that do not rely on external networks, without noticeably impairing performance on clean images. We also show that our paradigm can be employed on CLIP models that have been adversarially finetuned to further enhance their robustness at test time. Our code is available \href{https://github.com/Sxing2/CLIP-Test-time-Counterattacks}{here}.

arxiv情報

著者 Songlong Xing,Zhengyu Zhao,Nicu Sebe
発行日 2025-03-05 15:51:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP はコメントを受け付けていません

Reasoning to Attend: Try to Understand How Token Works

要約

現在の大規模なマルチモーダルモデル(LMMS)は、視覚言語モデル(LLAVAなど)とダウンストリームタスク指定モデル(\ eg、sam)を共同で最適化するためのテキストプロンプトとして$ \ texttt {} $トークンに依存しています。
しかし、私たちは、それがどのように機能するかをほとんど研究していないことを観察しています。
この作業では、最初に類似性マップを視覚化します。これは、$ \ texttt {} $トークンと、LlavaエンコーダーとSAMデコーダーの両方の最後の隠れ層から派生した画像トークンの埋め込みとのセマンティックな類似性を計算することによって取得されます。
興味深いことに、類似性マップのアクティベーション応答の観点から印象的な一貫性が保持されることがわかりました。
具体的には、テキストの語彙で拡張されたプレースホルダーである$ \ texttt {} $トークンは、個々のトークン化された画像パッチ間で広範囲にクエリをして、テキストからペアの画像までのオブジェクトのセマンティクスを一致させますが、大きな言語モデル(LLM)は微調整されています。
上記の調査結果を提示すると、類似性マップから借用された高度にアクティブ化されたポイントのガイダンスの下で、$ \ textbf {d} $をアッテンする場所のlmmsの回復力のある$ \ textbf {rea} $の音響能力を促進します。
驚くべきことに、読み取りは、プラグアンドプレイの方法でパラダイムのように、$ \ texttt {} $にシームレスに適用できる、ポイントモジュール(SASP)との類似性、類似性の直感的なデザインを特徴としています。
また、ReasonSegおよびRefcoco(+/g)データセットで広範な実験が行われています。
読み取りが微調整後の以前のスキルの壊滅的な忘れに苦しむかどうかを検証するために、増強されたFP-Refcoco(+/g)データセットでの生成能力をさらに評価します。
すべてのコードとモデルは、https://github.com/rui-qian/readで公開されています。

要約(オリジナル)

Current Large Multimodal Models (LMMs) empowered visual grounding typically rely on $\texttt{}$ token as a text prompt to jointly optimize the vision-language model (e.g., LLaVA) and the downstream task-specified model (\eg, SAM). However, we observe that little research has looked into how it works. In this work, we first visualize the similarity maps, which are obtained by computing the semantic similarity between the $\texttt{}$ token and the image token embeddings derived from the last hidden layer in both the LLaVA encoder and SAM decoder. Intriguingly, we have found that a striking consistency holds in terms of activation responses in the similarity map,which reveals that what $\texttt{}$ token contributes to is the semantic similarity within image-text pairs. Specifically, $\texttt{}$ token, a placeholder expanded in text vocabulary, extensively queries among individual tokenized image patches to match the semantics of an object from text to the paired image while the Large Language Models (LLMs) are being fine-tuned. Upon the above findings, we present READ, which facilitates LMMs’ resilient $\textbf{REA}$soning capability of where to atten$\textbf{D}$ under the guidance of highly activated points borrowed from similarity maps. Remarkably, READ features an intuitive design, Similarity as Points module (SasP), which can be seamlessly applied to $\texttt{}$-like paradigms in a plug-and-play fashion. Also, extensive experiments have been conducted on the ReasonSeg and RefCOCO(+/g) datasets. To validate whether READ suffers from catastrophic forgetting of previous skills after fine-tuning, we further assess its generation ability on an augmented FP-RefCOCO(+/g) dataset. All codes and models are publicly available at https://github.com/rui-qian/READ.

arxiv情報

著者 Rui Qian,Xin Yin,Dejing Dou
発行日 2025-03-05 15:55:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Reasoning to Attend: Try to Understand How Token Works はコメントを受け付けていません