ChineseSimpleVQA — ‘See the World, Discover Knowledge’: A Chinese Factuality Evaluation for Large Vision Language Models

要約

大規模なビジョン言語モデル(LVLMS)における事実上の精度の評価は、急速な発展に遅れをとっており、これらのモデルの知識能力と信頼性を完全に反映することが困難になっています。
この論文では、8つの主要なトピックと56のサブトピックにわたるLVLMSの視覚的事実性を評価することを目的とした中国語で、中国語で最初の事実に基づいた視覚的質問ベンチマークを紹介します。
このベンチマークの主な機能には、中国語に焦点を当て、多様な知識タイプ、マルチホップの質問構築、高品質のデータ、静的な一貫性、および短い回答を通じて簡単に評価できることが含まれます。
さらに、厳格なデータ構築パイプラインを提供し、視覚的事実を2つの部分に分離します。世界を見る(つまり、オブジェクト認識)と知識を発見します。
この分離により、LVLMSの機能境界と実行メカニズムを分析できます。
その後、34の高度なオープンソースとクローズドソースモデルを評価し、このフィールド内の重要なパフォーマンスギャップを明らかにします。

要約(オリジナル)

The evaluation of factual accuracy in large vision language models (LVLMs) has lagged behind their rapid development, making it challenging to fully reflect these models’ knowledge capacity and reliability. In this paper, we introduce the first factuality-based visual question-answering benchmark in Chinese, named ChineseSimpleVQA, aimed at assessing the visual factuality of LVLMs across 8 major topics and 56 subtopics. The key features of this benchmark include a focus on the Chinese language, diverse knowledge types, a multi-hop question construction, high-quality data, static consistency, and easy-to-evaluate through short answers. Moreover, we contribute a rigorous data construction pipeline and decouple the visual factuality into two parts: seeing the world (i.e., object recognition) and discovering knowledge. This decoupling allows us to analyze the capability boundaries and execution mechanisms of LVLMs. Subsequently, we evaluate 34 advanced open-source and closed-source models, revealing critical performance gaps within this field.

arxiv情報

著者 Jihao Gu,Yingyao Wang,Pi Bu,Chen Wang,Ziming Wang,Tengtao Song,Donglai Wei,Jiale Yuan,Yingxiu Zhao,Yancheng He,Shilong Li,Jiaheng Liu,Meng Cao,Jun Song,Yingshui Tan,Xiang Li,Wenbo Su,Zhicheng Zheng,Xiaoyong Zhu,Bo Zheng
発行日 2025-02-26 13:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ChineseSimpleVQA — ‘See the World, Discover Knowledge’: A Chinese Factuality Evaluation for Large Vision Language Models はコメントを受け付けていません

What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations

要約

記録されたビデオを簡潔で正確なテキストの概要に変換することは、マルチモーダル学習における成長する課題です。
このペーパーでは、科学的領域でのビデオからテキストへの要約のために特別に設計されたデータセットであるVistaを紹介します。
Vistaには、記録された18,599のAIカンファレンスプレゼンテーションと対応する紙の要約が含まれています。
最先端の大規模モデルのパフォーマンスをベンチマークし、計画ベースのフレームワークを適用して、要約の構造化された性質をより適切にキャプチャします。
人間と自動化された評価の両方が、明示的な計画が要約の品質と事実上の一貫性を高めることを確認しています。
ただし、モデルと人間のパフォーマンスの間にはかなりのギャップが残っており、科学的なビデオ要約の課題を強調しています。

要約(オリジナル)

Transforming recorded videos into concise and accurate textual summaries is a growing challenge in multimodal learning. This paper introduces VISTA, a dataset specifically designed for video-to-text summarization in scientific domains. VISTA contains 18,599 recorded AI conference presentations paired with their corresponding paper abstracts. We benchmark the performance of state-of-the-art large models and apply a plan-based framework to better capture the structured nature of abstracts. Both human and automated evaluations confirm that explicit planning enhances summary quality and factual consistency. However, a considerable gap remains between models and human performance, highlighting the challenges of scientific video summarization.

arxiv情報

著者 Dongqi Liu,Chenxi Whitehouse,Xi Yu,Louis Mahon,Rohit Saxena,Zheng Zhao,Yifu Qiu,Mirella Lapata,Vera Demberg
発行日 2025-02-26 13:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations はコメントを受け付けていません

Potential Field as Scene Affordance for Behavior Change-Based Visual Risk Object Identification

要約

行動変化に基づく視覚リスクオブジェクト識別(Visual-Roi)を研究します。これは、インテリジェントな駆動システムの潜在的な危険を検出するために設計された重要なフレームワークです。
既存の方法は、多くの場合、シーンアフォーダンスの不完全な理解に起因する空間精度と時間的一貫性に大きな制限を示します。
たとえば、これらの方法は、リスクオブジェクトとしてエゴ車両に影響を与えない車両を頻繁に誤認します。
さらに、既存の動作の変化ベースの方法は、視点画像空間に因果推論を実装するため、非効率的です。
上記の課題を克服するために、鳥瞰図(BEV)表現を備えた新しいフレームワークを提案します。
具体的には、潜在的なフィールドをシーンアフォーダンスとして利用し、道路インフラストラクチャや交通参加者に由来する反発力と、ターゲットの目的地から供給された引力を伴います。
この作業では、BEVセマンティックセグメンテーションから得られたセマンティックラベルに従って異なるエネルギーレベルを割り当てることにより、潜在的なフィールドを計算します。
徹底的な実験とアブレーション研究を実施し、提案された方法を合成データセットと実際のデータセットの両方でさまざまな最先端のアルゴリズムと比較します。
我々の結果は、それぞれリスクベンチデータセットで20.3%と11.6%の強化により、空間的および時間的一貫性が顕著に増加することを示しています。
さらに、計算効率を88%改善できます。
空間精度が5.4%、ヌスケーンデータセットの時間的一貫性が7.2%の改善を達成しています。

要約(オリジナル)

We study behavior change-based visual risk object identification (Visual-ROI), a critical framework designed to detect potential hazards for intelligent driving systems. Existing methods often show significant limitations in spatial accuracy and temporal consistency, stemming from an incomplete understanding of scene affordance. For example, these methods frequently misidentify vehicles that do not impact the ego vehicle as risk objects. Furthermore, existing behavior change-based methods are inefficient because they implement causal inference in the perspective image space. We propose a new framework with a Bird’s Eye View (BEV) representation to overcome the above challenges. Specifically, we utilize potential fields as scene affordance, involving repulsive forces derived from road infrastructure and traffic participants, along with attractive forces sourced from target destinations. In this work, we compute potential fields by assigning different energy levels according to the semantic labels obtained from BEV semantic segmentation. We conduct thorough experiments and ablation studies, comparing the proposed method with various state-of-the-art algorithms on both synthetic and real-world datasets. Our results show a notable increase in spatial and temporal consistency, with enhancements of 20.3% and 11.6% on the RiskBench dataset, respectively. Additionally, we can improve computational efficiency by 88%. We achieve improvements of 5.4% in spatial accuracy and 7.2% in temporal consistency on the nuScenes dataset.

arxiv情報

著者 Pang-Yuan Pao,Shu-Wei Lu,Ze-Yan Lu,Yi-Ting Chen
発行日 2025-02-26 14:06:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Potential Field as Scene Affordance for Behavior Change-Based Visual Risk Object Identification はコメントを受け付けていません

Physics-informed Variational Autoencoders for Improved Robustness to Environmental Factors of Variation

要約

機械学習モデルと物理モデルの組み合わせは、堅牢なデータ表現を学習するための最近の研究パスです。
このホワイトペーパーでは、データ収集条件に関連する変動の潜在的要因に関する以前の物理的知識を統合する変分自動エンコーダーであるp $^3 $ vaeを紹介します。
p $^3 $ vaeは、潜在的な空間を物理変数に部分的に接地するために、標準的なニューラルネットワーク層と訓練不可能な物理層を組み合わせています。
機械学習部分と物理学部のバランスをとる半監視学習アルゴリズムを紹介します。
シミュレートされた実際のデータセットと実際のデータセットに関する実験は、外挿機能と解釈可能性の観点から、競合する物理学に基づいた機械学習モデルに対するフレームワークの利点を示しています。
特に、p $^3 $ vaeには当然、興味深い解き目能力があることを示しています。
私たちのコードとデータは、https://github.com/romain3ch216/p3vaeで公開されています。

要約(オリジナル)

The combination of machine learning models with physical models is a recent research path to learn robust data representations. In this paper, we introduce p$^3$VAE, a variational autoencoder that integrates prior physical knowledge about the latent factors of variation that are related to the data acquisition conditions. p$^3$VAE combines standard neural network layers with non-trainable physics layers in order to partially ground the latent space to physical variables. We introduce a semi-supervised learning algorithm that strikes a balance between the machine learning part and the physics part. Experiments on simulated and real data sets demonstrate the benefits of our framework against competing physics-informed and conventional machine learning models, in terms of extrapolation capabilities and interpretability. In particular, we show that p$^3$VAE naturally has interesting disentanglement capabilities. Our code and data have been made publicly available at https://github.com/Romain3Ch216/p3VAE.

arxiv情報

著者 Romain Thoreau,Laurent Risser,Véronique Achard,Béatrice Berthelot,Xavier Briottet
発行日 2025-02-26 14:08:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.CV, I.2.10, stat.ML | Physics-informed Variational Autoencoders for Improved Robustness to Environmental Factors of Variation はコメントを受け付けていません

RetinaRegen: A Hybrid Model for Readability and Detail Restoration in Fundus Images

要約

眼底の画質は眼疾患を診断するために重要ですが、実際の状態はしばしばぼやけた画像または読めない画像をもたらし、診断の不確実性を高めます。
これらの課題に対処するために、この研究では、読みやすさの分類モデル、拡散モデル、および変分自動エンコーダー(VAE)を統合する網膜画像修復のハイブリッドモデルであるRetinaregenを提案します。
SynFundus-1Mデータセットの例は、提案された方法が27.4521、SSIM 0.9556、および光椎間板(RO)領域の読みやすさのラベルのLPIPSを0.1911で達成していることを示しています。
これらの結果は、重要な地域の回復における優れたパフォーマンスを示しており、Fundusの画質を高め、臨床診断をサポートするための効果的なソリューションを提供します。

要約(オリジナル)

Fundus image quality is crucial for diagnosing eye diseases, but real-world conditions often result in blurred or unreadable images, increasing diagnostic uncertainty. To address these challenges, this study proposes RetinaRegen, a hybrid model for retinal image restoration that integrates a readability classifi-cation model, a Diffusion Model, and a Variational Autoencoder (VAE). Ex-periments on the SynFundus-1M dataset show that the proposed method achieves a PSNR of 27.4521, an SSIM of 0.9556, and an LPIPS of 0.1911 for the readability labels of the optic disc (RO) region. These results demonstrate superior performance in restoring key regions, offering an effective solution to enhance fundus image quality and support clinical diagnosis.

arxiv情報

著者 Yuhan Tang,Yudian Wang,Weizhen Li,Ye Yue,Chengchang Pan,Honggang Qi
発行日 2025-02-26 14:10:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | RetinaRegen: A Hybrid Model for Readability and Detail Restoration in Fundus Images はコメントを受け付けていません

A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs

要約

幅では剪定と比較して、深さごとの剪定は、リソース制約のシナリオで推論を大幅に加速する可能性があります。
Howerverは、トランス層全体を最小剪定ユニットとして扱うことで、層の情報全体を無差別に破棄することにより、モデルのパフォーマンスを低下させる可能性があります。
このホワイトペーパーでは、再生カーネルヒルベルトスペースの異なるレイヤーの出力の相関を分析することにより、大きな言語モデルのレイヤー間の「パッチのような」特徴関係を明らかにします。
この観察結果に基づいて、事前に定義された類似性のしきい値に従って上から下まで連続したレイヤーを動的に選択および融合するスライド層マージメソッドを提案し、それによってパフォーマンスを維持しながらモデル構造を簡素化します。
さまざまなアーキテクチャとさまざまなパラメータースケールを使用したLLMSに関する広範な実験は、剪定後のゼロショット推論のパフォーマンスと再訓練回復品質の両方で既存の剪定技術を上回ることを示しています。
特に、Vicuna-7Bモデルで35 \%Pruningを使用した実験では、既存の方法と比較して、ゼロショットタスクの平均パフォーマンスが1.654 \%の改善を達成しました。
さらに、深さの剪定と幅剪定を組み合わせて剪定効果を高める可能性をさらに明らかにします。
私たちのコードは、https://github.com/920927/slm-a-sliding-layer-merging-methodで入手できます。

要約(オリジナル)

Compared to width-wise pruning, depth-wise pruning can significantly accelerate inference in resource-constrained scenarios. Howerver, treating the entire Transformer layer as the minimum pruning unit may degrade model performance by indiscriminately discarding the entire information of the layer. This paper reveals the ‘Patch-like’ feature relationship between layers in large language models by analyzing the correlation of the outputs of different layers in the reproducing kernel Hilbert space. Building on this observation, we proposes a sliding layer merging method that dynamically selects and fuses consecutive layers from top to bottom according to a pre-defined similarity threshold, thereby simplifying the model structure while maintaining its performance. Extensive experiments on LLMs with various architectures and different parameter scales show that our method outperforms existing pruning techniques in both zero-shot inference performance and retraining recovery quality after pruning. In particular, in the experiment with 35\% pruning on the Vicuna-7B model, our method achieved a 1.654\% improvement in average performance on zero-shot tasks compared to the existing method. Moreover, we further reveal the potential of combining depth pruning with width pruning to enhance the pruning effect. Our codes are available at https://github.com/920927/SLM-a-sliding-layer-merging-method.

arxiv情報

著者 Xuan Ding,Yao Zhu,Yunjian Zhang,Chuanlong Xie
発行日 2025-02-26 14:15:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs はコメントを受け付けていません

Spatial-Mamba: Effective Visual State Space Models via Structure-aware State Fusion

要約

Mambaなどの選択的状態空間モデル(SSM)は、1Dシーケンシャルデータで長距離依存関係をキャプチャすることに非常に優れていますが、2D視覚タスクへのアプリケーションは依然として課題に直面しています。
現在の視覚的なSSMは、多くの場合、画像を1Dシーケンスに変換し、さまざまなスキャンパターンを使用してローカル空間依存関係を組み込みます。
ただし、これらの方法は、複雑な画像の空間構造と、延長されたスキャンパスによって引き起こされる計算コストの増加を効果的にキャプチャする上で制限されています。
これらの制限に対処するために、州空間で近隣の接続性を直接確立する新しいアプローチであるSpatial-Mambaを提案します。
シーケンシャル状態遷移のみに依存する代わりに、構造認識状態融合方程式を導入します。これは、拡張された畳み込みを活用して画像の空間構造依存関係をキャプチャし、視覚的な文脈情報の流れを大幅に促進します。
空間マンバは、3つの段階で進行します。単方向スキャンでの初期状態計算、構造認識状態融合による空間コンテキストの取得、および観測方程式を使用した最終状態計算。
私たちの理論分析は、空間マンバが同じマトリックス乗算フレームワークの下で元のマンバと線形の注意を統合し、私たちの方法をより深く理解することを示しています。
実験結果は、単一のスキャンでさえ、画像分類、検出、およびセグメンテーションにおける最先端のSSMベースのモデルを達成または上回ることが空間マンバがいることを示しています。
ソースコードと訓練されたモデルは、https://github.com/edwardchasel/spatial-mambaにあります。

要約(オリジナル)

Selective state space models (SSMs), such as Mamba, highly excel at capturing long-range dependencies in 1D sequential data, while their applications to 2D vision tasks still face challenges. Current visual SSMs often convert images into 1D sequences and employ various scanning patterns to incorporate local spatial dependencies. However, these methods are limited in effectively capturing the complex image spatial structures and the increased computational cost caused by the lengthened scanning paths. To address these limitations, we propose Spatial-Mamba, a novel approach that establishes neighborhood connectivity directly in the state space. Instead of relying solely on sequential state transitions, we introduce a structure-aware state fusion equation, which leverages dilated convolutions to capture image spatial structural dependencies, significantly enhancing the flow of visual contextual information. Spatial-Mamba proceeds in three stages: initial state computation in a unidirectional scan, spatial context acquisition through structure-aware state fusion, and final state computation using the observation equation. Our theoretical analysis shows that Spatial-Mamba unifies the original Mamba and linear attention under the same matrix multiplication framework, providing a deeper understanding of our method. Experimental results demonstrate that Spatial-Mamba, even with a single scan, attains or surpasses the state-of-the-art SSM-based models in image classification, detection and segmentation. Source codes and trained models can be found at https://github.com/EdwardChasel/Spatial-Mamba.

arxiv情報

著者 Chaodong Xiao,Minghan Li,Zhengqiang Zhang,Deyu Meng,Lei Zhang
発行日 2025-02-26 14:20:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Spatial-Mamba: Effective Visual State Space Models via Structure-aware State Fusion はコメントを受け付けていません

Knowledge Distillation for Semantic Segmentation: A Label Space Unification Approach

要約

過去数年にわたって、セマンティックセグメンテーションのために同様のドメインを共有するデータセットの数が増えています。
しかし、全体的なデータの量が増えているにもかかわらず、さまざまなデータセットの分類および/またはラベル付けポリシーの矛盾のため、より大きなモデルをトレーニングすることは依然として困難です。
この目的のために、セマンティックセグメンテーションのラベル空間統合方法としても機能する知識蒸留アプローチを提案します。
要するに、教師モデルは、特定の分類法を備えたソースデータセットでトレーニングされ、関連するラベル空間のグラウンドトゥルースラベルが存在する追加データを擬似レーベルするために使用されます。
関連する分類法をソース分類法にマッピングすることにより、モデルが擬似ラベルを予測できる制約を作成します。
改善された擬似適応を使用して、2つの挑戦的なドメイン、つまり都市とオフロードの運転で一貫して教師を上回る学生モデルを訓練します。
私たちのグラウンドトゥルース補正された擬似ラベルは、それぞれ都市およびオフロードドメインの388.230と18.558の画像を備えた12および7のパブリックデータセットに及び、これまでの自律運転のための最大の複合データセットを作成します。

要約(オリジナル)

An increasing number of datasets sharing similar domains for semantic segmentation have been published over the past few years. But despite the growing amount of overall data, it is still difficult to train bigger and better models due to inconsistency in taxonomy and/or labeling policies of different datasets. To this end, we propose a knowledge distillation approach that also serves as a label space unification method for semantic segmentation. In short, a teacher model is trained on a source dataset with a given taxonomy, then used to pseudo-label additional data for which ground truth labels of a related label space exist. By mapping the related taxonomies to the source taxonomy, we create constraints within which the model can predict pseudo-labels. Using the improved pseudo-labels we train student models that consistently outperform their teachers in two challenging domains, namely urban and off-road driving. Our ground truth-corrected pseudo-labels span over 12 and 7 public datasets with 388.230 and 18.558 images for the urban and off-road domains, respectively, creating the largest compound datasets for autonomous driving to date.

arxiv情報

著者 Anton Backhaus,Thorsten Luettel,Mirko Maehlisch
発行日 2025-02-26 14:33:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Knowledge Distillation for Semantic Segmentation: A Label Space Unification Approach はコメントを受け付けていません

Multi-level Attention-guided Graph Neural Network for Image Restoration

要約

近年、深い学習は、画像修復の分野で顕著な成功を収めています。
ただし、ほとんどの畳み込みニューラルネットワークベースの方法は、通常、単一のスケールに焦点を当てており、マルチスケール情報の組み込みを無視しています。
画像修復タスクでは、画像のローカル機能は不十分であるため、グローバルな機能を補完する必要があります。
最近のニューラルネットワークアルゴリズムは機能抽出に大きな進歩を遂げていますが、多くのモデルはグローバルな機能を明示的にモデル化したり、グローバルな機能とローカル機能の関係を考慮したりしません。
このペーパーでは、マルチレベルの注意誘導グラフニューラルネットワークを提案しています。
提案されたネットワークは、マルチアテンションメカニズムを使用して、フィーチャマップ内の要素ブロックグラフと要素グラフを明示的に構築し、局所的な構造的特徴と画像のグローバル表現情報の両方を抽出します。
ネットワークは、画像の劣化中にグローバル情報を効果的に抽出するのに苦労しているため、ローカル機能ブロックの構造情報を使用して、グローバル情報を修正および補完することができます。
同様に、機能マップの要素ブロック情報が欠落している場合、グローバル要素表現情報を使用して洗練できます。
ネットワーク内のグラフは、マルチアテンションメカニズムを介してリアルタイムの動的接続を学習し、情報はグラフ畳み込みアルゴリズムを介して伝播および集約されます。
ローカル要素ブロック情報と機能マップからグローバル要素表現情報を組み合わせることにより、アルゴリズムは画像内の欠落情報をより効果的に復元できます。
いくつかの古典的な画像修復タスクの実験結果は、提案された方法の有効性を示し、最先端のパフォーマンスを達成します。

要約(オリジナル)

In recent years, deep learning has achieved remarkable success in the field of image restoration. However, most convolutional neural network-based methods typically focus on a single scale, neglecting the incorporation of multi-scale information. In image restoration tasks, local features of an image are often insufficient, necessitating the integration of global features to complement them. Although recent neural network algorithms have made significant strides in feature extraction, many models do not explicitly model global features or consider the relationship between global and local features. This paper proposes multi-level attention-guided graph neural network. The proposed network explicitly constructs element block graphs and element graphs within feature maps using multi-attention mechanisms to extract both local structural features and global representation information of the image. Since the network struggles to effectively extract global information during image degradation, the structural information of local feature blocks can be used to correct and supplement the global information. Similarly, when element block information in the feature map is missing, it can be refined using global element representation information. The graph within the network learns real-time dynamic connections through the multi-attention mechanism, and information is propagated and aggregated via graph convolution algorithms. By combining local element block information and global element representation information from the feature map, the algorithm can more effectively restore missing information in the image. Experimental results on several classic image restoration tasks demonstrate the effectiveness of the proposed method, achieving state-of-the-art performance.

arxiv情報

著者 Jiatao Jiang,Zhen Cui,Chunyan Xu,Jian Yang
発行日 2025-02-26 14:35:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Multi-level Attention-guided Graph Neural Network for Image Restoration はコメントを受け付けていません

Espresso: Robust Concept Filtering in Text-to-Image Models

要約

拡散ベースのテキストから画像モデルは、インターネットから削られた大きなデータセットでトレーニングされており、容認できない概念(著作権の侵害や安全でない)を含む可能性があります。
I)容認できない概念を持つ画像の生成を防止するのに効果的な概念除去技術(CRTS)、ii)許容可能な概念でのユーティリティプレゼント、およびiii)敵対的なプロンプトのある回避に対して堅牢です。
これらすべての要件を同時に満たす以前のCRTはありません。
対照的な言語イメージのプリトレーニング(クリップ)に基づいて、最初の堅牢なコンセプトフィルターであるEspressoを紹介します。
生成された画像の埋め込み間の距離を使用して、受け入れられない概念と許容可能な概念の両方のテキスト埋め込みを使用することにより、容認できない概念を特定します。
これにより、ユーティリティを維持しながら、受け入れられない許容可能な概念のテキスト埋め込みを分離することにより、堅牢性を微調整できます。
さまざまなCRTを評価するためのパイプラインを提示して、エスプレッソはユーティリティを保持しながら以前のCRTよりも効果的で堅牢であることを示します。

要約(オリジナル)

Diffusion based text-to-image models are trained on large datasets scraped from the Internet, potentially containing unacceptable concepts (e.g., copyright-infringing or unsafe). We need concept removal techniques (CRTs) which are i) effective in preventing the generation of images with unacceptable concepts, ii) utility-preserving on acceptable concepts, and, iii) robust against evasion with adversarial prompts. No prior CRT satisfies all these requirements simultaneously. We introduce Espresso, the first robust concept filter based on Contrastive Language-Image Pre-Training (CLIP). We identify unacceptable concepts by using the distance between the embedding of a generated image to the text embeddings of both unacceptable and acceptable concepts. This lets us fine-tune for robustness by separating the text embeddings of unacceptable and acceptable concepts while preserving utility. We present a pipeline to evaluate various CRTs to show that Espresso is more effective and robust than prior CRTs, while retaining utility.

arxiv情報

著者 Anudeep Das,Vasisht Duddu,Rui Zhang,N. Asokan
発行日 2025-02-26 14:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | Espresso: Robust Concept Filtering in Text-to-Image Models はコメントを受け付けていません