ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models

要約

最近の研究では、ブラックボックスプロンプトチューニング(BBPT)と呼ばれる、ブラックボックスビジョン言語モデルのプロンプトチューニングのためのさまざまなアプローチが導入されています。
BBPTはかなりの可能性を実証していますが、多くの既存の方法には過度の数のクエリ(つまり、関数評価)が必要であることがよくあります。
この問題に取り組むために、純粋にブラックボックス設定で効率的で堅牢な迅速な最適化を可能にする新しいアプローチであるZeroth-Orderの固有の次元プロンプトチューニング(ZIP)を提案します。
ZIPの重要なアイデアは、問題の次元とゼロオーダー勾配推定の分散を減らすことです。
これを達成し、低ランク表現のプロンプトを再パラメータ化し、推定勾配の本質的な次元クリッピングを設計します。
標準ベンチマークの13以上の視覚言語タスクでZIPを評価し、最高のパフォーマンスの代替BBPTメソッドと比較して、少ないショット精度で約6%、クエリ効率が48%の平均改善を達成し、新しい最新の最新技術を確立することを示しています。
アブレーション分析はさらに、提案されたクリッピングメカニズムが、高価なハイパーパラメーター検索の結果と一致するクリッピングしきい値を手動で選択する必要なく、堅牢で最適であることを示しています。

要約(オリジナル)

Recent studies have introduced various approaches for prompt-tuning black-box vision-language models, referred to as black-box prompt-tuning (BBPT). While BBPT has demonstrated considerable potential, it is often found that many existing methods require an excessive number of queries (i.e., function evaluations), which poses a significant challenge in real-world scenarios where the number of allowed queries is limited. To tackle this issue, we propose Zeroth-order Intrinsic-dimensional Prompt-tuning (ZIP), a novel approach that enables efficient and robust prompt optimization in a purely black-box setting. The key idea of ZIP is to reduce the problem dimensionality and the variance of zeroth-order gradient estimates, such that the training is done fast with far less queries. We achieve this by re-parameterizing prompts in low-rank representations and designing intrinsic-dimensional clipping of estimated gradients. We evaluate ZIP on 13+ vision-language tasks in standard benchmarks and show that it achieves an average improvement of approximately 6% in few-shot accuracy and 48% in query efficiency compared to the best-performing alternative BBPT methods, establishing a new state of the art. Our ablation analysis further shows that the proposed clipping mechanism is robust and nearly optimal, without the need to manually select the clipping threshold, matching the result of expensive hyperparameter search.

arxiv情報

著者 Seonghwan Park,Jaehyeon Jeong,Yongjun Kim,Jaeho Lee,Namhoon Lee
発行日 2025-04-09 12:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models はコメントを受け付けていません

Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition

要約

マルチモーダルのコンテキスト学習(MICL)を活用するマルチモーダルモデルであるRosettaを紹介し、最小限の例を活用してドキュメントの新しいスクリプトパターンのシーケンスを分類し、明示的な再訓練の必要性を排除します。
コンテキスト学習を強化するために、さまざまな程度のコンテキストの情報性を保証するデータセット生成プロセスを設計し、さまざまなシナリオでコンテキストを活用する際のモデルの適応性を改善しました。
私たちの方法の重要な強さは、オープンポンシャル分類を可能にするコンテキスト認識トークネイザー(CAT)の使用です。
これにより、モデルは無制限の範囲のクラスにわたってテキストとシンボルパターンを分類し、その分類機能をパターンのトレーニングアルファベットの範囲を超えて拡張できます。
その結果、新しいアルファベットや言語の認識などのアプリケーションのロックを解除します。
合成データセットの実験は、ロゼッタが分散型の視覚パターンと多様なアルファベットとスクリプトの分類を成功裏に分類する可能性を示しています。

要約(オリジナル)

We introduce Rosetta, a multimodal model that leverages Multimodal In-Context Learning (MICL) to classify sequences of novel script patterns in documents by leveraging minimal examples, thus eliminating the need for explicit retraining. To enhance contextual learning, we designed a dataset generation process that ensures varying degrees of contextual informativeness, improving the model’s adaptability in leveraging context across different scenarios. A key strength of our method is the use of a Context-Aware Tokenizer (CAT), which enables open-vocabulary classification. This allows the model to classify text and symbol patterns across an unlimited range of classes, extending its classification capabilities beyond the scope of its training alphabet of patterns. As a result, it unlocks applications such as the recognition of new alphabets and languages. Experiments on synthetic datasets demonstrate the potential of Rosetta to successfully classify Out-Of-Distribution visual patterns and diverse sets of alphabets and scripts, including but not limited to Chinese, Greek, Russian, French, Spanish, and Japanese.

arxiv情報

著者 Tom Simon,William Mocaer,Pierrick Tranouez,Clement Chatelain,Thierry Paquet
発行日 2025-04-09 12:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition はコメントを受け付けていません

Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi

要約

畳み込みニューラルネットワーク(CNNS)は、レイヤーに沿って進行する入力画像の短距離相関を評価しますが、視覚変圧器(VIT)アーキテクチャは、完全に接続されたレイヤーで構成される反復トランスエンコーダーを使用して、長距離相関を評価します。
どちらも複雑な分類タスクを解決するように設計されていますが、異なる視点からです。
この研究は、CNNSとVITアーキテクチャが統一された基礎となる学習メカニズムに由来することを示しています。これは、Feedforward(FF)およびマルチヘッド注意(MHA)サブブロックの各ノードの単一ノードパフォーマンス(SNP)を定量的に測定します。
各ノードは、可能な出力ラベルの小さなクラスターを識別し、これらのクラスターの外側のラベルとして表現される追加ノイズがあります。
これらの機能は、変圧器エンコーダーに沿って徐々に研ぎ澄まされており、信号対雑音比を強化しています。
この統一された根本的な学習メカニズムは、2つの主要な発見につながります。
まず、精度に影響を与えることなく、効率的な適用された結節斜角接続(ANDC)剪定技術を可能にします。
第二に、SNPに基づいて、MHAヘッド間で自発的な対称性破壊が発生し、各ヘッドがSNP間の協力を通じてラベルのサブセットに注意を集中させるようにします。
その結果、各ヘッドは、定量的なMHAモデスビブンディメカニズムを表す指定されたラベルを認識する専門家になります。
この統計的メカニックは、視点に触発された視点により、各ノードの顕微鏡パフォーマンスからネットワーク全体の巨視的な動作を明らかにすることができます。
これらの結果は、CIFAR-100およびFlowers-102データセットで訓練されたコンパクトな畳み込みトランスアーキテクチャに基づいており、自然言語処理などの他のアーキテクチャやアプリケーションへの拡張を求めています。

要約(オリジナル)

Convolutional neural networks (CNNs) evaluate short-range correlations in input images which progress along the layers, whereas vision transformer (ViT) architectures evaluate long-range correlations, using repeated transformer encoders composed of fully connected layers. Both are designed to solve complex classification tasks but from different perspectives. This study demonstrates that CNNs and ViT architectures stem from a unified underlying learning mechanism, which quantitatively measures the single-nodal performance (SNP) of each node in feedforward (FF) and multi-head attention (MHA) sub-blocks. Each node identifies small clusters of possible output labels, with additional noise represented as labels outside these clusters. These features are progressively sharpened along the transformer encoders, enhancing the signal-to-noise ratio. This unified underlying learning mechanism leads to two main findings. First, it enables an efficient applied nodal diagonal connection (ANDC) pruning technique without affecting the accuracy. Second, based on the SNP, spontaneous symmetry breaking occurs among the MHA heads, such that each head focuses its attention on a subset of labels through cooperation among its SNPs. Consequently, each head becomes an expert in recognizing its designated labels, representing a quantitative MHA modus vivendi mechanism. This statistical mechanics inspired viewpoint enables to reveal macroscopic behavior of the entire network from the microscopic performance of each node. These results are based on a compact convolutional transformer architecture trained on the CIFAR-100 and Flowers-102 datasets and call for their extension to other architectures and applications, such as natural language processing.

arxiv情報

著者 Ella Koresh,Ronit D. Gross,Yuval Meir,Yarden Tzach,Tal Halevi,Ido Kanter
発行日 2025-04-09 13:06:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi はコメントを受け付けていません

CasTex: Cascaded Text-to-Texture Synthesis via Explicit Texture Maps and Physically-Based Shading

要約

この作業では、拡散モデルを使用してテキストからテキストの合成を調査し、物理ベースのテクスチャマップを生成します。
さまざまな照明条件下で現実的なモデルの外観を達成することを目指しています。
タスクの顕著なソリューションは、スコア蒸留サンプリングです。
微分可能なラスター化とシェーディングパイプラインを考慮して、グラデーションガイダンスを使用して複雑なテクスチャを回復することができます。
ただし、実際には、広範囲にわたる潜在的な拡散モデルと組み合わせた前述のソリューションは、深刻な視覚アーティファクトを生成し、暗黙のテクスチャパラメーター化などの追加の正規化が必要です。
より直接的な代替品として、テクスチャ合成(CASTEX)のカスケード拡散モデルを使用したアプローチを提案します。
セットアップでは、スコア蒸留サンプリングにより、高品質のテクスチャがボックスになります。
特に、手順を改善するための明示的なパラメーター化を支持して、暗黙のテクスチャパラメーター化を省略することができました。
実験では、私たちのアプローチが、パブリックテクスチャ合成ベンチマークの最先端の最適化ベースのソリューションを大幅に上回ることを示しています。

要約(オリジナル)

This work investigates text-to-texture synthesis using diffusion models to generate physically-based texture maps. We aim to achieve realistic model appearances under varying lighting conditions. A prominent solution for the task is score distillation sampling. It allows recovering a complex texture using gradient guidance given a differentiable rasterization and shading pipeline. However, in practice, the aforementioned solution in conjunction with the widespread latent diffusion models produces severe visual artifacts and requires additional regularization such as implicit texture parameterization. As a more direct alternative, we propose an approach using cascaded diffusion models for texture synthesis (CasTex). In our setup, score distillation sampling yields high-quality textures out-of-the box. In particular, we were able to omit implicit texture parameterization in favor of an explicit parameterization to improve the procedure. In the experiments, we show that our approach significantly outperforms state-of-the-art optimization-based solutions on public texture synthesis benchmarks.

arxiv情報

著者 Mishan Aliev,Dmitry Baranchuk,Kirill Struminsky
発行日 2025-04-09 13:08:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CasTex: Cascaded Text-to-Texture Synthesis via Explicit Texture Maps and Physically-Based Shading はコメントを受け付けていません

EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation

要約

ゼロショット、トレーニングフリー、画像ベースのテキストツービデオツージェネレーションは、既存の画像ベースの拡散モデルを使用してビデオを生成することを目的とした新興領域です。
この空間の現在の方法では、画像生成モデルに特定のアーキテクチャの変更が必要であり、適応性とスケーラビリティを制限します。
このような方法とは対照的に、モデルに依存しないアプローチを提供します。
拡散軌跡で交差点を使用し、潜在的な値でのみ動作します。
軌跡の交差点のみを使用して、局所的なフレームごとのコヒーレンスと多様性を得ることができませんでした。
したがって、代わりにグリッドベースのアプローチを使用します。
コンテキスト内トレーニングLLMを使用して、コヒーレントなフレームごとのプロンプトを生成します。
別のものは、フレーム間の違いを識別するために使用されます。
これらに基づいて、各グリッドセルのプロンプトを切り替えるタイミングを制御するクリップベースの注意マスクを取得します。
以前のスイッチングはより高い分散をもたらしますが、後で切り替えると一貫性が高くなります。
したがって、私たちのアプローチは、フレームのコヒーレンスと分散の間の適切な制御を確保することができます。
私たちのアプローチにより、最先端のパフォーマンスが発生し、多様な画像生成モデルを操作する際の柔軟性が高まります。
定量的メトリックとユーザー研究を使用した実証分析により、モデルの優れた時間的一貫性、視覚的忠実度、ユーザー満足度が確認されているため、トレーニングのない画像ベースのテキストからビデオへの生成を得るための新しい方法を提供します。

要約(オリジナル)

Zero-shot, training-free, image-based text-to-video generation is an emerging area that aims to generate videos using existing image-based diffusion models. Current methods in this space require specific architectural changes to image generation models, which limit their adaptability and scalability. In contrast to such methods, we provide a model-agnostic approach. We use intersections in diffusion trajectories, working only with the latent values. We could not obtain localized frame-wise coherence and diversity using only the intersection of trajectories. Thus, we instead use a grid-based approach. An in-context trained LLM is used to generate coherent frame-wise prompts; another is used to identify differences between frames. Based on these, we obtain a CLIP-based attention mask that controls the timing of switching the prompts for each grid cell. Earlier switching results in higher variance, while later switching results in more coherence. Therefore, our approach can ensure appropriate control between coherence and variance for the frames. Our approach results in state-of-the-art performance while being more flexible when working with diverse image-generation models. The empirical analysis using quantitative metrics and user studies confirms our model’s superior temporal consistency, visual fidelity and user satisfaction, thus providing a novel way to obtain training-free, image-based text-to-video generation.

arxiv情報

著者 Diljeet Jagpal,Xi Chen,Vinay P. Namboodiri
発行日 2025-04-09 13:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation はコメントを受け付けていません

MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking

要約

移動オブジェクトセグメンテーションは、動的な視覚環境を理解する上で重要な役割を果たします。
既存のメソッドは、移動オブジェクトを識別するためにマルチフレーム画像シーケンスに依存していますが、シングルイメージMOSは、モーション意図の予測やカメラフレームのドロップの取り扱いなどのアプリケーションにとって重要です。
ただし、単一の画像からの移動オブジェクトのセグメント化は、時間的キューがないため、既存の方法では困難なままです。
このギャップに対処するために、単一イメージの移動オブジェクトセグメンテーションの最初のフレームワークであるMovsamを提案します。
Movsamは、移動オブジェクトを検索し、セグメンテーションの深い思考に基づいてテキストプロンプトを生成するようにプロンプ​​トすることで強化されたマルチモーダル大手言語モデル(MLLM)を活用します。
これらのプロンプトは、セグメントAnything Model(SAM)およびVision-Language Model(VLM)の視覚的な機能と相互融合し、ロジック駆動型の移動オブジェクトセグメンテーションを可能にします。
次に、セグメンテーションの結果は深い思考の改良ループを受け、Movsamがシーンのコンテキストと論理的推論との客観的な関係の理解を繰り返し改善することができます。
この革新的なアプローチにより、Movsamはシーンの理解を考慮することにより、単一の画像の移動オブジェクトをセグメント化できます。
Movsamを現実世界に実装して、マルチフレームメソッドが失敗する自律運転シナリオの実用的なアプリケーションと有効性を検証します。
さらに、一時的な情報を利用する際のマルチフレームメソッドの固有の利点にもかかわらず、Movsamは公共のMOSベンチマーク全体で最先端のパフォーマンスを達成し、J \&Fで92.5 \%に達します。
実装はhttps://github.com/irmvlab/movsamで入手できます。

要約(オリジナル)

Moving object segmentation plays a vital role in understanding dynamic visual environments. While existing methods rely on multi-frame image sequences to identify moving objects, single-image MOS is critical for applications like motion intention prediction and handling camera frame drops. However, segmenting moving objects from a single image remains challenging for existing methods due to the absence of temporal cues. To address this gap, we propose MovSAM, the first framework for single-image moving object segmentation. MovSAM leverages a Multimodal Large Language Model (MLLM) enhanced with Chain-of-Thought (CoT) prompting to search the moving object and generate text prompts based on deep thinking for segmentation. These prompts are cross-fused with visual features from the Segment Anything Model (SAM) and a Vision-Language Model (VLM), enabling logic-driven moving object segmentation. The segmentation results then undergo a deep thinking refinement loop, allowing MovSAM to iteratively improve its understanding of the scene context and inter-object relationships with logical reasoning. This innovative approach enables MovSAM to segment moving objects in single images by considering scene understanding. We implement MovSAM in the real world to validate its practical application and effectiveness for autonomous driving scenarios where the multi-frame methods fail. Furthermore, despite the inherent advantage of multi-frame methods in utilizing temporal information, MovSAM achieves state-of-the-art performance across public MOS benchmarks, reaching 92.5\% on J\&F. Our implementation will be available at https://github.com/IRMVLab/MovSAM.

arxiv情報

著者 Chang Nie,Yiqing Xu,Guangming Wang,Zhe Liu,Yanzi Miao,Hesheng Wang
発行日 2025-04-09 13:12:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking はコメントを受け付けていません

GraspClutter6D: A Large-scale Real-world Dataset for Robust Perception and Grasping in Cluttered Scenes

要約

乱雑な環境で堅牢な把握が継続して、ロボット工学のオープンな課題のままです。
ベンチマークデータセットは深い学習方法を大幅に進めていますが、主に軽い閉塞と多様性が不十分な単純なシーンに焦点を当てており、実際のシナリオへの適用性を制限しています。
graspcrutter6dは、密集したアレンジメント(14.1オブジェクト/シーン、62.6 \%閉塞)を備えた1,000の非常に散らばったシーンを特徴とする大規模な現実世界の把握データセットを紹介します(2)75の環境構成(ビン、シェルブ、テーブル)を使用してキャプチャされた75の環境構成の200オブジェクト全体の包括的なカバレッジ(2)
52K RGB-D画像用の736K 6Dオブジェクトポーズと9.3Bの実行可能なロボットグラップを含む。
最先端のセグメンテーション、オブジェクトのポーズ推定、把握検出方法をベンチマークして、散らかった環境での課題に関する重要な洞察を提供します。
さらに、Trainingリソースとしてのデータセットの有効性を検証し、Graspclutter6Dでトレーニングされたネットワークを把握することは、シミュレーションと現実世界の実験の両方で既存のデータセットでトレーニングされたものを大幅に上回ることを示しています。
データセット、ツールキット、および注釈ツールは、プロジェクトWebサイトhttps://sites.google.com/view/graspclutter6dで公開されています。

要約(オリジナル)

Robust grasping in cluttered environments remains an open challenge in robotics. While benchmark datasets have significantly advanced deep learning methods, they mainly focus on simplistic scenes with light occlusion and insufficient diversity, limiting their applicability to practical scenarios. We present GraspClutter6D, a large-scale real-world grasping dataset featuring: (1) 1,000 highly cluttered scenes with dense arrangements (14.1 objects/scene, 62.6\% occlusion), (2) comprehensive coverage across 200 objects in 75 environment configurations (bins, shelves, and tables) captured using four RGB-D cameras from multiple viewpoints, and (3) rich annotations including 736K 6D object poses and 9.3B feasible robotic grasps for 52K RGB-D images. We benchmark state-of-the-art segmentation, object pose estimation, and grasping detection methods to provide key insights into challenges in cluttered environments. Additionally, we validate the dataset’s effectiveness as a training resource, demonstrating that grasping networks trained on GraspClutter6D significantly outperform those trained on existing datasets in both simulation and real-world experiments. The dataset, toolkit, and annotation tools are publicly available on our project website: https://sites.google.com/view/graspclutter6d.

arxiv情報

著者 Seunghyeok Back,Joosoon Lee,Kangmin Kim,Heeseon Rho,Geonhyup Lee,Raeyoung Kang,Sangbeom Lee,Sangjun Noh,Youngjin Lee,Taeyeop Lee,Kyoobin Lee
発行日 2025-04-09 13:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | GraspClutter6D: A Large-scale Real-world Dataset for Robust Perception and Grasping in Cluttered Scenes はコメントを受け付けていません

Joint Retrieval of Cloud properties using Attention-based Deep Learning Models

要約

正確なクラウドプロパティの検索は、雲の動作と気候への影響を理解するために不可欠です。これには、気象予測、気候モデリング、地球の放射バランスの推定などがあります。
広く使用されている物理ベースのアプローチである独立したピクセル近似(IPA)は、各ピクセルがその隣接に依存しないと仮定することにより、放射伝達計算を簡素化します。
計算上効率的ですが、IPAには、3D放射効果からの不正確さ、クラウドエッジでのエラー、重複または不均一な雲畑に対する効果がないなど、大きな制限があります。
最近のAI/MLベースのディープラーニングモデルは、ピクセル全体の空間的関係を活用することにより、検索精度が向上しました。
ただし、これらのモデルは多くの場合、メモリ集約的であるか、単一のクラウドプロパティのみを取得するか、共同プロパティ検索と闘っています。
これらの課題を克服するために、CloudUnetを導入します。CloudUnetは、注意メカニズムを採用して厚く重複する雲領域のエラーを減らし、雲の光厚(COT)と雲の有効半径(CER)の共同検索のための特殊な損失関数を削減するコンパクトなUNETベースのモデルです。
大規模な渦シミュレーション(LES)データセットの実験では、CAMモデルが最先端の深い学習方法を上回り、COTで平均絶対エラー(MAE)を34%、CERで42%削減し、COTおよびCER回復で76%および86%低いMAEを達成することが示されています。

要約(オリジナル)

Accurate cloud property retrieval is vital for understanding cloud behavior and its impact on climate, including applications in weather forecasting, climate modeling, and estimating Earth’s radiation balance. The Independent Pixel Approximation (IPA), a widely used physics-based approach, simplifies radiative transfer calculations by assuming each pixel is independent of its neighbors. While computationally efficient, IPA has significant limitations, such as inaccuracies from 3D radiative effects, errors at cloud edges, and ineffectiveness for overlapping or heterogeneous cloud fields. Recent AI/ML-based deep learning models have improved retrieval accuracy by leveraging spatial relationships across pixels. However, these models are often memory-intensive, retrieve only a single cloud property, or struggle with joint property retrievals. To overcome these challenges, we introduce CloudUNet with Attention Module (CAM), a compact UNet-based model that employs attention mechanisms to reduce errors in thick, overlapping cloud regions and a specialized loss function for joint retrieval of Cloud Optical Thickness (COT) and Cloud Effective Radius (CER). Experiments on a Large Eddy Simulation (LES) dataset show that our CAM model outperforms state-of-the-art deep learning methods, reducing mean absolute errors (MAE) by 34% for COT and 42% for CER, and achieving 76% and 86% lower MAE for COT and CER retrievals compared to the IPA method.

arxiv情報

著者 Zahid Hassan Tushar,Adeleke Ademakinwa,Jianwu Wang,Zhibo Zhang,Sanjay Purushotham
発行日 2025-04-09 13:19:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Joint Retrieval of Cloud properties using Attention-based Deep Learning Models はコメントを受け付けていません

SEAL: Semantic Aware Image Watermarking

要約

生成モデルは急速に進化して現実的な出力を生成しています。
しかし、それらの合成出力は、自然とAIの生成されたコンテンツの明確な区別にますます挑戦するようになり、堅牢な透かしのテクニックが必要です。
透かしは通常、ターゲット画像の完全性を維持し、除去の試みに耐え、無関係な画像への不正な複製を防ぐことが期待されます。
このニーズに対処するために、最近の方法は、最初のノイズを使用して拡散モデルによって生成された画像に永続的な透かしを埋め込みました。
しかし、そうするために、彼らは生成された画像の分布を歪めるか、使用されているキーの長い辞書の検索に依存しています。
この論文では、生成された画像に関するセマンティック情報を透かしに直接埋め込む新しい透かし方法を提案し、キーパターンのデータベースを必要とせずに検証できる歪みのない透かしを可能にします。
代わりに、キーパターンは、地域に敏感なハッシュを使用して、画像のセマンティックな埋め込みから推測できます。
さらに、元の画像コンテンツで透かし検出を調整すると、偽造攻撃に対する堅牢性が向上します。
それを実証するために、2つの大部分が見過ごされている攻撃戦略を検討します。(i)攻撃者が初期ノイズを抽出し、同じパターンで新しい画像を生成します。
(ii)おそらく透かしを保持している間、無関係な(潜在的に有害な)オブジェクトを透かしの画像に挿入する攻撃者。
これらの攻撃に対する方法の堅牢性の増加を経験的に検証します。
まとめると、我々の結果は、コンテンツを意識した透かしが画像世代モデルから生じるリスクを軽減できることを示唆しています。

要約(オリジナル)

Generative models have rapidly evolved to generate realistic outputs. However, their synthetic outputs increasingly challenge the clear distinction between natural and AI-generated content, necessitating robust watermarking techniques. Watermarks are typically expected to preserve the integrity of the target image, withstand removal attempts, and prevent unauthorized replication onto unrelated images. To address this need, recent methods embed persistent watermarks into images produced by diffusion models using the initial noise. Yet, to do so, they either distort the distribution of generated images or rely on searching through a long dictionary of used keys for detection. In this paper, we propose a novel watermarking method that embeds semantic information about the generated image directly into the watermark, enabling a distortion-free watermark that can be verified without requiring a database of key patterns. Instead, the key pattern can be inferred from the semantic embedding of the image using locality-sensitive hashing. Furthermore, conditioning the watermark detection on the original image content improves robustness against forgery attacks. To demonstrate that, we consider two largely overlooked attack strategies: (i) an attacker extracting the initial noise and generating a novel image with the same pattern; (ii) an attacker inserting an unrelated (potentially harmful) object into a watermarked image, possibly while preserving the watermark. We empirically validate our method’s increased robustness to these attacks. Taken together, our results suggest that content-aware watermarks can mitigate risks arising from image-generative models.

arxiv情報

著者 Kasra Arabi,R. Teal Witter,Chinmay Hegde,Niv Cohen
発行日 2025-04-09 13:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | SEAL: Semantic Aware Image Watermarking はコメントを受け付けていません

Compound and Parallel Modes of Tropical Convolutional Neural Networks

要約

畳み込みニューラルネットワークはますます深く複雑になり、計算コストが高くなりました。
熱帯の畳み込みニューラルネットワーク(TCNN)は乗算を減少させますが、標準のCNNと比較してパフォーマンスが低下しています。
これに対処するために、2つの新しいバリアント – 化合物TCNN(CTCNN)と並列TCNN(PTCNN) – トロピカルミニプラスと最大プラスカーネルの組み合わせを使用して、従来の畳み込みカーネルを置き換えることを提案します。
これにより、乗算とバランス効率とパフォーマンスが低下します。
さまざまなデータセットでの実験では、CTCNNおよびPTCNNが他のCNNメソッドのパフォーマンスに一致するか、それを超えることが示されています。
これらをより深いアーキテクチャで従来のCNNと組み合わせると、パフォーマンスも向上します。
さらに、効率的かつ効果的なモデルを目指して、精度損失を最小限に抑えてパラメーターと乗算を減らす単純化されたTCNNアーキテクチャを調査しています。

要約(オリジナル)

Convolutional neural networks have become increasingly deep and complex, leading to higher computational costs. While tropical convolutional neural networks (TCNNs) reduce multiplications, they underperform compared to standard CNNs. To address this, we propose two new variants – compound TCNN (cTCNN) and parallel TCNN (pTCNN)-that use combinations of tropical min-plus and max-plus kernels to replace traditional convolution kernels. This reduces multiplications and balances efficiency with performance. Experiments on various datasets show that cTCNN and pTCNN match or exceed the performance of other CNN methods. Combining these with conventional CNNs in deeper architectures also improves performance. We are further exploring simplified TCNN architectures that reduce parameters and multiplications with minimal accuracy loss, aiming for efficient and effective models.

arxiv情報

著者 Mingbo Li,Liying Liu,Ye Luo
発行日 2025-04-09 13:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.6 | Compound and Parallel Modes of Tropical Convolutional Neural Networks はコメントを受け付けていません