PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction

要約

テキストからイメージの生成は最近、生成的拡散モデルの視覚的に印象的な結果によって駆動される、テキストから画像の検索の実行可能な代替手段として浮上しました。
クエリパフォーマンス予測は情報検索の積極的な研究トピックですが、私たちの知る限り、人間の判断に基づいて、テキストから画像の生成におけるクエリ(プロンプトと呼ばれる)の難しさを分析する事前の研究はありません。
この目的のために、画像生成のパフォーマンスに関して手動で注釈が付けられたプロンプトの最初のデータセットを紹介します。
さらに、これらの評価は、検索パフォーマンスを表す手動注釈を収集することにより、テキストから画像への検索に拡張します。
したがって、10Kを超えるクエリで構成される、両方のタスクにわたって、プロンプトおよびクエリパフォーマンス予測(PQPP)の最初のジョイントベンチマークを確立します。
ベンチマークは、(i)画像生成と画像検索の両方でのプロンプト/クエリの難易度の比較評価、および(ii)生成と検索の両方に対処するプロンプト/クエリパフォーマンス予測子の評価を可能にします。
いくつかの生成前および検索後のパフォーマンス予測因子を評価し、将来の研究のための競争的ベースラインを提供します。
ベンチマークとコードは、https://github.com/eduard6421/pqppで公開されています。

要約(オリジナル)

Text-to-image generation has recently emerged as a viable alternative to text-to-image retrieval, driven by the visually impressive results of generative diffusion models. Although query performance prediction is an active research topic in information retrieval, to the best of our knowledge, there is no prior study that analyzes the difficulty of queries (referred to as prompts) in text-to-image generation, based on human judgments. To this end, we introduce the first dataset of prompts which are manually annotated in terms of image generation performance. Additionally, we extend these evaluations to text-to-image retrieval by collecting manual annotations that represent retrieval performance. We thus establish the first joint benchmark for prompt and query performance prediction (PQPP) across both tasks, comprising over 10K queries. Our benchmark enables (i) the comparative assessment of prompt/query difficulty in both image generation and image retrieval, and (ii) the evaluation of prompt/query performance predictors addressing both generation and retrieval. We evaluate several pre- and post-generation/retrieval performance predictors, thus providing competitive baselines for future research. Our benchmark and code are publicly available at https://github.com/Eduard6421/PQPP.

arxiv情報

著者 Eduard Poesina,Adriana Valentina Costache,Adrian-Gabriel Chifu,Josiane Mothe,Radu Tudor Ionescu
発行日 2025-03-18 16:45:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction はコメントを受け付けていません

DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers

要約

最近のマルチティーチャー蒸留方法により、複数の基礎モデルのエンコーダーが単一のエンコーダーに統合され、分類、セグメンテーション、深度推定などのコアビジョンタスクの競争力のあるパフォーマンスを達成しました。
これにより、教師のプールには、2Dと3Dの両方の認識における多様なタスクに特化したビジョンモデルも含まれている場合、同様の成功を達成できますか?
この論文では、教師モデルが(a)設計目標と(b)トレーニングされたデータの両方で、教師モデルが大幅に異なる挑戦的なマルチテーカーの蒸留シナリオである、不均一な教師の蒸留または共蒸留の問題を定義および調査します。
データ共有戦略と教師固有のエンコーディングを探求し、2Dビジョン、3D理解、3D人間の知覚に優れている単一のエンコーダーであるDuneを紹介します。
私たちのモデルは、それぞれのタスクで、より大きな教師のパフォーマンスに匹敵するパフォーマンスを達成し、時にはそれらを上回ることさえあります。
特に、Duneは、はるかに小さなエンコーダーを使用して、マップフリーの視覚的再局在化でMAST3Rを上回ります。

要約(オリジナル)

Recent multi-teacher distillation methods have unified the encoders of multiple foundation models into a single encoder, achieving competitive performance on core vision tasks like classification, segmentation, and depth estimation. This led us to ask: Could similar success be achieved when the pool of teachers also includes vision models specialized in diverse tasks across both 2D and 3D perception? In this paper, we define and investigate the problem of heterogeneous teacher distillation, or co-distillation, a challenging multi-teacher distillation scenario where teacher models vary significantly in both (a) their design objectives and (b) the data they were trained on. We explore data-sharing strategies and teacher-specific encoding, and introduce DUNE, a single encoder excelling in 2D vision, 3D understanding, and 3D human perception. Our model achieves performance comparable to that of its larger teachers, sometimes even outperforming them, on their respective tasks. Notably, DUNE surpasses MASt3R in Map-free Visual Relocalization with a much smaller encoder.

arxiv情報

著者 Mert Bulent Sariyildiz,Philippe Weinzaepfel,Thomas Lucas,Pau de Jorge,Diane Larlus,Yannis Kalantidis
発行日 2025-03-18 16:47:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers はコメントを受け付けていません

PULASki: Learning inter-rater variability using statistical distances to improve probabilistic segmentation

要約

医療イメージングの領域では、セグメンテーションのための多くの監視された学習ベースの方法には、複数の専門家からの注釈の高い変動性、ラベル付きデータの不足、クラスの不均衡なデータセットなど、いくつかの課題に直面しています。
これらの問題は、臨床分析に必要な精度を欠いているセグメンテーションを引き起こす可能性があり、関連する不確実性の定量化なしに誤解を招くほど自信を持っている可能性があります。
この作業では、小さなデータセットでも、専門家の注釈の変動性を正確にキャプチャする生物医学的画像セグメンテーションのための計算効率的な生成ツールとしてPulaskiメソッドを提案しています。
このアプローチは、特にクラスの不均衡な問題における標準的な交差点と比較して条件付きデコーダーの学習を改善する条件付き変分自動エンコーダー構造(確率的UNET)の統計距離に基づいて改善された損失関数を利用します。
提案された方法は、2つの構造的に異なるセグメンテーションタスク(頭蓋内血管と多発性硬化症(MS)病変)に対して分析され、定量的メトリックと定性的出力の観点から、4つの十分に確立されたベースラインと結果を比較しました。
これらの実験には、準最適な信号対雑音比や高い曖昧さなど、挑戦的な機能を特徴とするクラスの均等なデータセットが含まれます。
経験的結果は、Pulaskiメソッドが5 \%の有意水準ですべてのベースラインよりも優れていることを示しています。
私たちの実験は、3Dパッチを使用した複雑なジオメトリの計算可能なセグメンテーションと2Dスライスの従来の使用の比較研究を最初に提示したものでもあります。
生成されたセグメンテーションは、特に容器タスクの場合、2Dケースよりも解剖学的にもっともらしいことが示されています。

要約(オリジナル)

In the domain of medical imaging, many supervised learning based methods for segmentation face several challenges such as high variability in annotations from multiple experts, paucity of labelled data and class imbalanced datasets. These issues may result in segmentations that lack the requisite precision for clinical analysis and can be misleadingly overconfident without associated uncertainty quantification. This work proposes the PULASki method as a computationally efficient generative tool for biomedical image segmentation that accurately captures variability in expert annotations, even in small datasets. This approach makes use of an improved loss function based on statistical distances in a conditional variational autoencoder structure (Probabilistic UNet), which improves learning of the conditional decoder compared to the standard cross-entropy particularly in class imbalanced problems. The proposed method was analysed for two structurally different segmentation tasks (intracranial vessel and multiple sclerosis (MS) lesion) and compare our results to four well-established baselines in terms of quantitative metrics and qualitative output. These experiments involve class-imbalanced datasets characterised by challenging features, including suboptimal signal-to-noise ratios and high ambiguity. Empirical results demonstrate the PULASKi method outperforms all baselines at the 5\% significance level. Our experiments are also of the first to present a comparative study of the computationally feasible segmentation of complex geometries using 3D patches and the traditional use of 2D slices. The generated segmentations are shown to be much more anatomically plausible than in the 2D case, particularly for the vessel task.

arxiv情報

著者 Soumick Chatterjee,Franziska Gaidzik,Alessandro Sciarra,Hendrik Mattern,Gábor Janiga,Oliver Speck,Andreas Nürnberger,Sahani Pathiraja
発行日 2025-03-18 16:50:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG | PULASki: Learning inter-rater variability using statistical distances to improve probabilistic segmentation はコメントを受け付けていません

ExDDV: A New Dataset for Explainable Deepfake Detection in Video

要約

生成されたビデオのリアリズムと品質が増え続けると、自動ディープフェイク検出器にますます依存する必要があるディープファークコンテンツを見つけることはますます難しくなります。
ただし、Deepfake検出器もエラーを発生しやすく、その決定は説明できず、人間はディープフェイクベースの詐欺や誤報に対して脆弱です。
この目的のために、ビデオで説明可能なディープフェイク検出のための最初のデータセットとベンチマークであるEXDDVを紹介します。
EXDDVは、テキストの説明(アーティファクトを説明するために)とクリック(アーティファクトを指摘するため)で手動で注釈が付けられた約5.4kの実際とディープファークのビデオで構成されています。
EXDDVで多くのビジョン言語モデルを評価し、さまざまな微調整およびコンテキスト内学習戦略で実験を行います。
私たちの結果は、テキストとクリックの監督が両方とも、観察されたアーティファクトをローカライズして説明できるDeepfakeビデオの堅牢な説明可能なモデルを開発するために必要であることを示しています。
結果を再現するための新しいデータセットとコードは、https://github.com/vladhondru25/exddvで入手できます。

要約(オリジナル)

The ever growing realism and quality of generated videos makes it increasingly harder for humans to spot deepfake content, who need to rely more and more on automatic deepfake detectors. However, deepfake detectors are also prone to errors, and their decisions are not explainable, leaving humans vulnerable to deepfake-based fraud and misinformation. To this end, we introduce ExDDV, the first dataset and benchmark for Explainable Deepfake Detection in Video. ExDDV comprises around 5.4K real and deepfake videos that are manually annotated with text descriptions (to explain the artifacts) and clicks (to point out the artifacts). We evaluate a number of vision-language models on ExDDV, performing experiments with various fine-tuning and in-context learning strategies. Our results show that text and click supervision are both required to develop robust explainable models for deepfake videos, which are able to localize and describe the observed artifacts. Our novel dataset and code to reproduce the results are available at https://github.com/vladhondru25/ExDDV.

arxiv情報

著者 Vlad Hondru,Eduard Hogea,Darian Onchis,Radu Tudor Ionescu
発行日 2025-03-18 16:55:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | ExDDV: A New Dataset for Explainable Deepfake Detection in Video はコメントを受け付けていません

Cosmos World Foundation Model Platform for Physical AI

要約

物理的なAIは、最初にデジタルで訓練する必要があります。
それ自体のデジタル双子、政策モデル、そして世界のデジタルツイン、世界モデルが必要です。
このペーパーでは、コスモスワールドファンデーションモデルプラットフォームを紹介して、開発者が物理的なAIセットアップのカスタマイズされた世界モデルを構築できるようにします。
世界の基礎モデルを、下流のアプリケーション向けにカスタマイズされた世界モデルに微調整できる汎用の世界モデルとして位置付けています。
当社のプラットフォームでは、ビデオキュレーションパイプライン、事前に訓練された世界財団モデル、訓練を受けた事前に訓練後の例、およびビデオトークンザーをカバーしています。
物理的なAIビルダーが私たちの社会の最も重要な問題を解決するのを助けるために、https://github.com/nvidia-cosmos/cosmos-predict1を介して入手可能な寛容なライセンスでコスモスをオープンソースとオープンウェイトにします。

要約(オリジナル)

Physical AI needs to be trained digitally first. It needs a digital twin of itself, the policy model, and a digital twin of the world, the world model. In this paper, we present the Cosmos World Foundation Model Platform to help developers build customized world models for their Physical AI setups. We position a world foundation model as a general-purpose world model that can be fine-tuned into customized world models for downstream applications. Our platform covers a video curation pipeline, pre-trained world foundation models, examples of post-training of pre-trained world foundation models, and video tokenizers. To help Physical AI builders solve the most critical problems of our society, we make Cosmos open-source and our models open-weight with permissive licenses available via https://github.com/nvidia-cosmos/cosmos-predict1.

arxiv情報

著者 NVIDIA,:,Niket Agarwal,Arslan Ali,Maciej Bala,Yogesh Balaji,Erik Barker,Tiffany Cai,Prithvijit Chattopadhyay,Yongxin Chen,Yin Cui,Yifan Ding,Daniel Dworakowski,Jiaojiao Fan,Michele Fenzi,Francesco Ferroni,Sanja Fidler,Dieter Fox,Songwei Ge,Yunhao Ge,Jinwei Gu,Siddharth Gururani,Ethan He,Jiahui Huang,Jacob Huffman,Pooya Jannaty,Jingyi Jin,Seung Wook Kim,Gergely Klár,Grace Lam,Shiyi Lan,Laura Leal-Taixe,Anqi Li,Zhaoshuo Li,Chen-Hsuan Lin,Tsung-Yi Lin,Huan Ling,Ming-Yu Liu,Xian Liu,Alice Luo,Qianli Ma,Hanzi Mao,Kaichun Mo,Arsalan Mousavian,Seungjun Nah,Sriharsha Niverty,David Page,Despoina Paschalidou,Zeeshan Patel,Lindsey Pavao,Morteza Ramezanali,Fitsum Reda,Xiaowei Ren,Vasanth Rao Naik Sabavat,Ed Schmerling,Stella Shi,Bartosz Stefaniak,Shitao Tang,Lyne Tchapmi,Przemek Tredak,Wei-Cheng Tseng,Jibin Varghese,Hao Wang,Haoxiang Wang,Heng Wang,Ting-Chun Wang,Fangyin Wei,Xinyue Wei,Jay Zhangjie Wu,Jiashu Xu,Wei Yang,Lin Yen-Chen,Xiaohui Zeng,Yu Zeng,Jing Zhang,Qinsheng Zhang,Yuxuan Zhang,Qingqing Zhao,Artur Zolkowski
発行日 2025-03-18 16:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Cosmos World Foundation Model Platform for Physical AI はコメントを受け付けていません

MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation

要約

テキストツービデオ(T2V)の生成は、拡散モデルで大きな進歩を遂げました。
ただし、既存の方法は、正確に拘束力のある属性に苦労し、空間的関係を決定し、複数の被験者間の複雑なアクション相互作用をキャプチャします。
これらの制限に対処するために、デュアルフェーズの洗練を通じて組成のT2V生成を強化するトレーニングなしの方法であるMagicCompを提案します。
具体的には、(1)コンディショニング段階で:セマンティックアンカーの分離を導入して、主題固有のセマンティクスを強化し、セマンティックアンカーの方向性ベクトルを元のテキスト埋め込みに徐々に注入することにより、被験者間の曖昧さを解決します。
(2)除去段階で:動的レイアウト融合の注意を提案します。これは、地位のあるプライアーとモデル適応の空間知覚を統合して、マスクされた注意調節を介して被験者を空間的領域に柔軟に結合することを提案します。
さらに、MagicCompはモデルに依存して汎用性の高いアプローチであり、既存のT2Vアーキテクチャにシームレスに統合できます。
T2V-CompbenchとVbenchでの広範な実験は、MagicCompが最先端の方法よりも優れていることを示しており、複雑なプロンプトベースや軌道制御可能なビデオ生成などのアプリケーションの可能性を強調しています。
プロジェクトページ:https://hong-yu-zhang.github.io/magiccomp-page/。

要約(オリジナル)

Text-to-video (T2V) generation has made significant strides with diffusion models. However, existing methods still struggle with accurately binding attributes, determining spatial relationships, and capturing complex action interactions between multiple subjects. To address these limitations, we propose MagicComp, a training-free method that enhances compositional T2V generation through dual-phase refinement. Specifically, (1) During the Conditioning Stage: We introduce the Semantic Anchor Disambiguation to reinforces subject-specific semantics and resolve inter-subject ambiguity by progressively injecting the directional vectors of semantic anchors into original text embedding; (2) During the Denoising Stage: We propose Dynamic Layout Fusion Attention, which integrates grounding priors and model-adaptive spatial perception to flexibly bind subjects to their spatiotemporal regions through masked attention modulation. Furthermore, MagicComp is a model-agnostic and versatile approach, which can be seamlessly integrated into existing T2V architectures. Extensive experiments on T2V-CompBench and VBench demonstrate that MagicComp outperforms state-of-the-art methods, highlighting its potential for applications such as complex prompt-based and trajectory-controllable video generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.

arxiv情報

著者 Hongyu Zhang,Yufan Deng,Shenghai Yuan,Peng Jin,Zesen Cheng,Yian Zhao,Chang Liu,Jie Chen
発行日 2025-03-18 17:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation はコメントを受け付けていません

Balanced Rate-Distortion Optimization in Learned Image Compression

要約

学習した画像圧縮(LIC)深い学習アーキテクチャを使用すると、大きな進歩が見られますが、標準のレート耐性(R-D)最適化は、レートと歪みの目標の多様な勾配により、不均衡な更新に遭遇することがよくあります。
この不均衡は、1つの目的が支配する最適ではない最適化につながる可能性があり、それにより全体的な圧縮効率が低下します。
この課題に対処するために、R-Dの最適化を多目的最適化(MOO)問題として再定式化し、勾配更新を適応的に調整してレートと歪みの両方でより公平な改善を実現する2つのバランスのとれたR-D最適化戦略を導入します。
最初に提案された戦略は、標準のR-D最適化軌跡に沿って粗から洗練された勾配降下アプローチを利用しているため、LICモデルをゼロからトレーニングするのに特に適しています。
2番目の提案された戦略は、既存のモデルを微調整するのに理想的な、平等制約を備えた2次プログラミングの問題として、再定式化された最適化を分析的に対処します。
実験結果は、両方の提案された方法がLICモデルのR-Dパフォーマンスを強化し、許容可能な追加トレーニングコストで約2 \%BDレート削減を達成し、よりバランスのとれた効率的な最適化プロセスにつながることを示しています。
コードはhttps://gitlab.com/viper-purdue/balanced-rdで入手できます。

要約(オリジナル)

Learned image compression (LIC) using deep learning architectures has seen significant advancements, yet standard rate-distortion (R-D) optimization often encounters imbalanced updates due to diverse gradients of the rate and distortion objectives. This imbalance can lead to suboptimal optimization, where one objective dominates, thereby reducing overall compression efficiency. To address this challenge, we reformulate R-D optimization as a multi-objective optimization (MOO) problem and introduce two balanced R-D optimization strategies that adaptively adjust gradient updates to achieve more equitable improvements in both rate and distortion. The first proposed strategy utilizes a coarse-to-fine gradient descent approach along standard R-D optimization trajectories, making it particularly suitable for training LIC models from scratch. The second proposed strategy analytically addresses the reformulated optimization as a quadratic programming problem with an equality constraint, which is ideal for fine-tuning existing models. Experimental results demonstrate that both proposed methods enhance the R-D performance of LIC models, achieving around a 2\% BD-Rate reduction with acceptable additional training cost, leading to a more balanced and efficient optimization process. Code will be available at https://gitlab.com/viper-purdue/Balanced-RD.

arxiv情報

著者 Yichi Zhang,Zhihao Duan,Yuning Huang,Fengqing Zhu
発行日 2025-03-18 17:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Balanced Rate-Distortion Optimization in Learned Image Compression はコメントを受け付けていません

Text-to-3D Generation using Jensen-Shannon Score Distillation

要約

スコア蒸留サンプリングは、テキストプロンプトから3Dモデルを生成するための効果的な手法であり、事前に訓練された大規模なテキストから画像間拡散モデルをガイダンスとして利用します。
ただし、生産された3D資産は、多様性が限られている、過剰飽和、過剰な滑らかになる傾向があります。
これらの問題は、逆カルバック – leibler(kl)発散目標の結果であり、最適化を不安定にし、モードを求める動作をもたらします。
このホワイトペーパーでは、ジェンセンシャノン分岐(JSD)に基づいた境界スコア蒸留目標を導き出し、最適化プロセスを安定させ、高品質の3D世代を生成します。
JSDは、よく生成された分布とターゲット分布に一致する可能性があるため、モードを緩和することができます。
識別子がよく訓練されていると仮定して、生成敵対的ネットワークの理論を利用して発電機の近似目的関数を定義することにより、JSDの実用的な実装を提供します。
Log-ODDS分類器に従って判別器を仮定することにより、提案された目的の勾配を推定するために少数サンプリングアルゴリズムを提案し、JSDの実用的な実装を提供します。
私たちは、理論的および経験的研究の両方を実施して、私たちの方法を検証します。
T3Benchでの実験結果は、私たちの方法が高品質で多様化した3D資産を生成できることを示しています。

要約(オリジナル)

Score distillation sampling is an effective technique to generate 3D models from text prompts, utilizing pre-trained large-scale text-to-image diffusion models as guidance. However, the produced 3D assets tend to be over-saturating, over-smoothing, with limited diversity. These issues are results from a reverse Kullback-Leibler (KL) divergence objective, which makes the optimization unstable and results in mode-seeking behavior. In this paper, we derive a bounded score distillation objective based on Jensen-Shannon divergence (JSD), which stabilizes the optimization process and produces high-quality 3D generation. JSD can match well generated and target distribution, therefore mitigating mode seeking. We provide a practical implementation of JSD by utilizing the theory of generative adversarial networks to define an approximate objective function for the generator, assuming the discriminator is well trained. By assuming the discriminator following a log-odds classifier, we propose a minority sampling algorithm to estimate the gradients of our proposed objective, providing a practical implementation for JSD. We conduct both theoretical and empirical studies to validate our method. Experimental results on T3Bench demonstrate that our method can produce high-quality and diversified 3D assets.

arxiv情報

著者 Khoi Do,Binh-Son Hua
発行日 2025-03-18 17:15:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Text-to-3D Generation using Jensen-Shannon Score Distillation はコメントを受け付けていません

Bolt3D: Generating 3D Scenes in Seconds

要約

高速フィードフォワード3Dシーン生成のための潜在的な拡散モデルを提示します。
1つ以上の画像を考慮して、モデルBolt3Dは、単一のGPUで7秒未満で3Dシーン表現を直接サンプリングします。
これを実現し、強力でスケーラブルな既存の2D拡散ネットワークアーキテクチャを活用して、一貫した高忠実度の3Dシーン表現を生成します。
このモデルをトレーニングするために、既存のMultiView画像データセットに最先端の密集した3D再構成技術を適用することにより、3Dジオメトリと外観の大規模なマルチビュー分類のデータセットを作成します。
3D再構成にシーンごとの最適化を必要とする以前のマルチビュー生成モデルと比較して、Bolt3Dは推論コストを最大300倍削減します。

要約(オリジナル)

We present a latent diffusion model for fast feed-forward 3D scene generation. Given one or more images, our model Bolt3D directly samples a 3D scene representation in less than seven seconds on a single GPU. We achieve this by leveraging powerful and scalable existing 2D diffusion network architectures to produce consistent high-fidelity 3D scene representations. To train this model, we create a large-scale multiview-consistent dataset of 3D geometry and appearance by applying state-of-the-art dense 3D reconstruction techniques to existing multiview image datasets. Compared to prior multiview generative models that require per-scene optimization for 3D reconstruction, Bolt3D reduces the inference cost by a factor of up to 300 times.

arxiv情報

著者 Stanislaw Szymanowicz,Jason Y. Zhang,Pratul Srinivasan,Ruiqi Gao,Arthur Brussee,Aleksander Holynski,Ricardo Martin-Brualla,Jonathan T. Barron,Philipp Henzler
発行日 2025-03-18 17:24:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Bolt3D: Generating 3D Scenes in Seconds はコメントを受け付けていません

One-for-More: Continual Diffusion Model for Anomaly Detection

要約

生成モデルの台頭により、生成フレームワーク内のすべてのタスクを統合することに関心が高まっています。
異常検出方法もこの範囲に分類され、拡散モデルを利用して、任意の異常画像が与えられたときに通常のサンプルを生成または再構築します。
しかし、我々の研究では、拡散モデルは、予測不可能なパターンの増分を満たすことができない「忠実な幻覚」と「壊滅的な忘却」に苦しんでいることがわかりました。
上記の問題を軽減するために、勾配投影を使用して安定した継続的な学習を実現する継続的な拡散モデルを提案します。
勾配投影は、学習した知識を保護する方向に向かって勾配を変更することにより、モデルの更新の正則化を展開します。
しかし、両刃の剣として、マルコフプロセスによってもたらされる膨大な記憶コストも必要です。
したがって、小さなメモリを消費し、パフォーマンスの損失がほとんどない線形表現の推移的な特性に基づいて、反復的な単数の値分解法を提案します。
最後に、拡散モデルの通常の画像に対する「過度にフィット」のリスクを考慮すると、拡散モデルの条件メカニズムを強化するための異常マスクネットワークを提案します。
継続的な異常検出のために、私たちはMVTECとビザで17/18の設定で1位を達成します。
コードはhttps://github.com/funz-0/one-for-moreで入手できます

要約(オリジナル)

With the rise of generative models, there is a growing interest in unifying all tasks within a generative framework. Anomaly detection methods also fall into this scope and utilize diffusion models to generate or reconstruct normal samples when given arbitrary anomaly images. However, our study found that the diffusion model suffers from severe “faithfulness hallucination” and “catastrophic forgetting”, which can’t meet the unpredictable pattern increments. To mitigate the above problems, we propose a continual diffusion model that uses gradient projection to achieve stable continual learning. Gradient projection deploys a regularization on the model updating by modifying the gradient towards the direction protecting the learned knowledge. But as a double-edged sword, it also requires huge memory costs brought by the Markov process. Hence, we propose an iterative singular value decomposition method based on the transitive property of linear representation, which consumes tiny memory and incurs almost no performance loss. Finally, considering the risk of “over-fitting” to normal images of the diffusion model, we propose an anomaly-masked network to enhance the condition mechanism of the diffusion model. For continual anomaly detection, ours achieves first place in 17/18 settings on MVTec and VisA. Code is available at https://github.com/FuNz-0/One-for-More

arxiv情報

著者 Xiaofan Li,Xin Tan,Zhuo Chen,Zhizhong Zhang,Ruixin Zhang,Rizen Guo,Guanna Jiang,Yulong Chen,Yanyun Qu,Lizhuang Ma,Yuan Xie
発行日 2025-03-18 17:32:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | One-for-More: Continual Diffusion Model for Anomaly Detection はコメントを受け付けていません