SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels

要約

3D占有予測は、強力な幾何学的認識とオブジェクト認識能力のために、自律運転の分野で多くの注目を集めています。
ただし、既存の方法では、ボクセルの最も重要な分布パターンを調査していないため、不十分な結果が生じています。
このペーパーでは、最初にボクセルのクラス間分布と幾何学的分布を調査し、それによってクラス間分布によって引き起こされる長期尾の問題と、幾何学的分布によって引き起こされるパフォーマンスの低下を解決します。
具体的には、このホワイトペーパーでは、SHTOCC(スパースヘッドテール占有率)を提案します。これは、スパースヘッドテールボクセル構造を使用して、ヘッドとテールクラスのキーボクセルを正確に識別およびバランスさせながら、デカップされた学習を使用して、支配的な(ヘッド)カテゴリに向けたモデルのバイアスを減らし、テールクラスのフォーカスを強化します。
実験では、複数のベースラインで大幅な改善が行われたことが示されています。SHTOCCはGPUメモリの使用量を42.2%削減し、推論速度を58.6%増加させ、精度を約7%向上させ、有効性と効率を確認します。
このコードは、https://github.com/ge95net/shtoccで入手できます

要約(オリジナル)

3D occupancy prediction has attracted much attention in the field of autonomous driving due to its powerful geometric perception and object recognition capabilities. However, existing methods have not explored the most essential distribution patterns of voxels, resulting in unsatisfactory results. This paper first explores the inter-class distribution and geometric distribution of voxels, thereby solving the long-tail problem caused by the inter-class distribution and the poor performance caused by the geometric distribution. Specifically, this paper proposes SHTOcc (Sparse Head-Tail Occupancy), which uses sparse head-tail voxel construction to accurately identify and balance key voxels in the head and tail classes, while using decoupled learning to reduce the model’s bias towards the dominant (head) category and enhance the focus on the tail class. Experiments show that significant improvements have been made on multiple baselines: SHTOcc reduces GPU memory usage by 42.2%, increases inference speed by 58.6%, and improves accuracy by about 7%, verifying its effectiveness and efficiency. The code is available at https://github.com/ge95net/SHTOcc

arxiv情報

著者 Qiucheng Yu,Yuan Xie,Xin Tan
発行日 2025-05-28 15:16:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels はコメントを受け付けていません

Single Domain Generalization for Alzheimer’s Detection from 3D MRIs with Pseudo-Morphological Augmentations and Contrastive Learning

要約

AlzheimerのMRISによる疾患検出は、現代の深い学習モデルのおかげで大幅に進歩していますが、クラスの不均衡、プロトコルのバリエーション、限られたデータセットの多様性などの課題は、一般化能力を妨げることがよくあります。
この問題に対処するために、この記事では、1つのドメインのデータが与えられた単一のドメイン一般化設定に焦点を当てています。
異なる分布の目に見えないドメイン。
脳の形態は、アルツハイマー病の診断において重要な役割を果たすことが知られているため、頑丈なクラス固有の表現を抽出するための監視された対比学習モデルと組み合わせて、形状に見当たる、解剖学的に意味のあるクラス固有の増強を生成することを目的とした学習可能な擬似形態学的モジュールの使用を提案します。
3つのデータセットで実施された実験は、特にクラスの不均衡とイメージングプロトコルのバリエーションの下で、パフォーマンスと一般化能力の向上を示しています。
ソースコードは、https://github.com/zobia111/sdg-alzheimerで受け入れられると利用可能になります。

要約(オリジナル)

Although Alzheimer’s disease detection via MRIs has advanced significantly thanks to contemporary deep learning models, challenges such as class imbalance, protocol variations, and limited dataset diversity often hinder their generalization capacity. To address this issue, this article focuses on the single domain generalization setting, where given the data of one domain, a model is designed and developed with maximal performance w.r.t. an unseen domain of distinct distribution. Since brain morphology is known to play a crucial role in Alzheimer’s diagnosis, we propose the use of learnable pseudo-morphological modules aimed at producing shape-aware, anatomically meaningful class-specific augmentations in combination with a supervised contrastive learning module to extract robust class-specific representations. Experiments conducted across three datasets show improved performance and generalization capacity, especially under class imbalance and imaging protocol variations. The source code will be made available upon acceptance at https://github.com/zobia111/SDG-Alzheimer.

arxiv情報

著者 Zobia Batool,Huseyin Ozkan,Erchan Aptoula
発行日 2025-05-28 15:18:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Single Domain Generalization for Alzheimer’s Detection from 3D MRIs with Pseudo-Morphological Augmentations and Contrastive Learning はコメントを受け付けていません

VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models

要約

マルチモーダル大手言語モデル(MLRMS)の出現により、強化学習と考え方(COT)の監督を統合することにより、洗練された視覚的推論機能が可能になりました。
ただし、これらの強化された推論能力はパフォーマンスを改善しますが、新たな露出度の低い安全性リスクも導入します。
この作業では、MLRMSの高度な視覚的推論のセキュリティへの影響を体系的に調査します。
私たちの分析は、基本的なトレードオフを明らかにしています。視覚的推論が改善するにつれて、モデルは脱獄攻撃に対してより脆弱になります。
この重要な発見に動機付けられているため、安全メカニズムをバイパスするために視覚的推論チェーンを活用する新しい脱獄フレームワークであるViscra(Visual Chain Reasuing Attack)を紹介します。
Viscraは、ターゲットを絞った視覚的注意マスキングと2段階の推論誘導戦略を組み合わせて、有害な出力を正確に制御します。
広範な実験は、Viscraの有効性を示しており、閉鎖ソースMLRMの主要な攻撃成功率を達成しました。Gemini2.0フラッシュ思考で76.48%、QVQ-Maxで68.56%、GPT-4oで56.60%。
私たちの調査結果は、重要な洞察を強調しています。MLRMSに力を与える能力 – 視覚的推論 – は、攻撃ベクターとしても役立ち、重大なセキュリティリスクをもたらします。

要約(オリジナル)

The emergence of Multimodal Large Language Models (MLRMs) has enabled sophisticated visual reasoning capabilities by integrating reinforcement learning and Chain-of-Thought (CoT) supervision. However, while these enhanced reasoning capabilities improve performance, they also introduce new and underexplored safety risks. In this work, we systematically investigate the security implications of advanced visual reasoning in MLRMs. Our analysis reveals a fundamental trade-off: as visual reasoning improves, models become more vulnerable to jailbreak attacks. Motivated by this critical finding, we introduce VisCRA (Visual Chain Reasoning Attack), a novel jailbreak framework that exploits the visual reasoning chains to bypass safety mechanisms. VisCRA combines targeted visual attention masking with a two-stage reasoning induction strategy to precisely control harmful outputs. Extensive experiments demonstrate VisCRA’s significant effectiveness, achieving high attack success rates on leading closed-source MLRMs: 76.48% on Gemini 2.0 Flash Thinking, 68.56% on QvQ-Max, and 56.60% on GPT-4o. Our findings highlight a critical insight: the very capability that empowers MLRMs — their visual reasoning — can also serve as an attack vector, posing significant security risks.

arxiv情報

著者 Bingrui Sima,Linhua Cong,Wenxuan Wang,Kun He
発行日 2025-05-28 15:29:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models はコメントを受け付けていません

A Closer Look at Multimodal Representation Collapse

要約

私たちは、モダリティ崩壊の基本的な理解を開発することを目指しています。これは、マルチモーダル融合のために訓練されたモデルがモダリティのサブセットのみに依存して、残りを無視する傾向がある最近観察された経験的現象です。
あるモダリティからのノイズの多い特徴が、融合ヘッドの共有ニューロンのセットを介して、別のモダリティからの予測的特徴を介して絡み合っていると、前者のモダリティの予測的特徴からの肯定的な貢献を効果的に隠し、崩壊につながると、モダリティ崩壊が起こることを示します。
さらに、クロスモーダルの知識の蒸留は、学生エンコーダのランクボトルネックを解放し、いずれかのモダリティからの予測機能に悪影響を与えることなく融合ヘッド出力を除去することにより、そのような表現を暗黙的に解き放つことを証明します。
上記の調査結果に基づいて、明示的な基盤の再割り当てを通じてモダリティの崩壊を防ぐアルゴリズムを提案し、アプリケーションが不足しているモダリティを扱うことを提案します。
複数のマルチモーダルベンチマークでの広範な実験は、当社の理論的主張を検証します。
プロジェクトページ:https://abhrac.github.io/mmcollapse/。

要約(オリジナル)

We aim to develop a fundamental understanding of modality collapse, a recently observed empirical phenomenon wherein models trained for multimodal fusion tend to rely only on a subset of the modalities, ignoring the rest. We show that modality collapse happens when noisy features from one modality are entangled, via a shared set of neurons in the fusion head, with predictive features from another, effectively masking out positive contributions from the predictive features of the former modality and leading to its collapse. We further prove that cross-modal knowledge distillation implicitly disentangles such representations by freeing up rank bottlenecks in the student encoder, denoising the fusion-head outputs without negatively impacting the predictive features from either modality. Based on the above findings, we propose an algorithm that prevents modality collapse through explicit basis reallocation, with applications in dealing with missing modalities. Extensive experiments on multiple multimodal benchmarks validate our theoretical claims. Project page: https://abhrac.github.io/mmcollapse/.

arxiv情報

著者 Abhra Chaudhuri,Anjan Dutta,Tu Bui,Serban Georgescu
発行日 2025-05-28 15:31:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | A Closer Look at Multimodal Representation Collapse はコメントを受け付けていません

Understanding Adversarial Training with Energy-based Models

要約

エネルギーベースのモデル(EBM)フレームワークを使用して、分類器の敵対的訓練(AT)をよりよく理解し、さらに堅牢な分類器の固有の生成機能を分析することを目指しています。
エネルギーレンズを介して標準分類子を表示することにより、さまざまな攻撃によって生成される敵対的な例のエネルギーが、天然サンプルのエネルギーとどのように異なるかを分析することから始めます。
私たちの仕事の中心的な焦点は、エネルギーの観点から、壊滅的な過剰適合(CO)と堅牢な過剰封入(RO)の重要な現象を理解することです。
トレーニング中のサンプルのエネルギーに対する既存のアプローチの影響を分析し、「デルタエネルギー」(元のサンプルとその敵対的な対応物の間のエネルギーの変化)の挙動がCOまたはROが発生すると大幅に分岐することを観察します。
これらのエネルギーダイナミクスと過剰適合との関係を徹底的に分析した後、トレーニング中にエネルギー環境を滑らかにするように設計された新しい正規容器であるデルタエネルギーの正規容器(DER)を提案します。
DERは、複数のベンチマークにわたってCOとROの両方を緩和するのに効果的であることを実証します。
さらに、生成モデルとして使用されている場合、堅牢な分類器は、画質と変動性の間のトレードオフを処理する制限があることを示しています。
ローカルクラスごとの主成分分析(PCA)と、より良いクラス固有の初期化と適応停止のためのエネルギーベースのガイダンスに基づいて改善された手法を提案し、サンプルの多様性と生成品質を向上させます。
生成モデリングのために明示的にトレーニングしないことを考慮すると、ハイブリッドの識別生成モデルと比較して、競争力のあるインセプションスコア(IS)およびFR \ ‘Echet Inception距離(FID)を達成します。

要約(オリジナル)

We aim at using Energy-based Model (EBM) framework to better understand adversarial training (AT) in classifiers, and additionally to analyze the intrinsic generative capabilities of robust classifiers. By viewing standard classifiers through an energy lens, we begin by analyzing how the energies of adversarial examples, generated by various attacks, differ from those of the natural samples. The central focus of our work is to understand the critical phenomena of Catastrophic Overfitting (CO) and Robust Overfitting (RO) in AT from an energy perspective. We analyze the impact of existing AT approaches on the energy of samples during training and observe that the behavior of the “delta energy’ — change in energy between original sample and its adversarial counterpart — diverges significantly when CO or RO occurs. After a thorough analysis of these energy dynamics and their relationship with overfitting, we propose a novel regularizer, the Delta Energy Regularizer (DER), designed to smoothen the energy landscape during training. We demonstrate that DER is effective in mitigating both CO and RO across multiple benchmarks. We further show that robust classifiers, when being used as generative models, have limits in handling trade-off between image quality and variability. We propose an improved technique based on a local class-wise principal component analysis (PCA) and energy-based guidance for better class-specific initialization and adaptive stopping, enhancing sample diversity and generation quality. Considering that we do not explicitly train for generative modeling, we achieve a competitive Inception Score (IS) and Fr\’echet inception distance (FID) compared to hybrid discriminative-generative models.

arxiv情報

著者 Mujtaba Hussain Mirza,Maria Rosaria Briglia,Filippo Bartolucci,Senad Beadini,Giuseppe Lisanti,Iacopo Masi
発行日 2025-05-28 15:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Understanding Adversarial Training with Energy-based Models はコメントを受け付けていません

Cascaded 3D Diffusion Models for Whole-body 3D 18-F FDG PET/CT synthesis from Demographics

要約

人口統計学的変数から直接高忠実度の3D PET/CTボリュームを合成するために、カスケード3D拡散モデルフレームワークを提案し、腫瘍学的イメージング、仮想試験、およびAI駆動型のデータ増強における現実的なデジタル双子の必要性の高まりに対処します。
事前に定義された解剖学的および代謝テンプレートに依存する決定論的ファントムとは異なり、この方法は2段階の生成プロセスを採用しています。
初期スコアベースの拡散モデルは、人口統計学的変数だけからの低解像度PET/CTボリュームを合成し、グローバルな解剖学的構造と近似代謝活動を提供します。
これに続いて、空間分解能を改良する超解像度の残留拡散モデルが続きます。
私たちのフレームワークは、オートペットデータセットからの18-F FDG PET/CTスキャンでトレーニングされ、オーガンワイズボリュームと標準化された取り込み値(SUV)分布を使用して評価され、人口統計サブグループ間の合成データと実際のデータを比較しました。
組織ごとの比較は、合成画像と実際の画像の間の強い一致を示しました。
特に、代謝摂取値のほとんどの逸脱は、サブグループ分析のグラウンドトゥルースの3〜5%のままでした。
これらの発見は、カスケードされた3D拡散モデルの可能性を強調して、解剖学的および代謝的に正確なPET/CT画像を生成し、従来のファントムに堅牢な代替品を提供し、臨床および研究用途向けのスケーラブルな人口情報の合成イメージングを可能にします。

要約(オリジナル)

We propose a cascaded 3D diffusion model framework to synthesize high-fidelity 3D PET/CT volumes directly from demographic variables, addressing the growing need for realistic digital twins in oncologic imaging, virtual trials, and AI-driven data augmentation. Unlike deterministic phantoms, which rely on predefined anatomical and metabolic templates, our method employs a two-stage generative process. An initial score-based diffusion model synthesizes low-resolution PET/CT volumes from demographic variables alone, providing global anatomical structures and approximate metabolic activity. This is followed by a super-resolution residual diffusion model that refines spatial resolution. Our framework was trained on 18-F FDG PET/CT scans from the AutoPET dataset and evaluated using organ-wise volume and standardized uptake value (SUV) distributions, comparing synthetic and real data between demographic subgroups. The organ-wise comparison demonstrated strong concordance between synthetic and real images. In particular, most deviations in metabolic uptake values remained within 3-5% of the ground truth in subgroup analysis. These findings highlight the potential of cascaded 3D diffusion models to generate anatomically and metabolically accurate PET/CT images, offering a robust alternative to traditional phantoms and enabling scalable, population-informed synthetic imaging for clinical and research applications.

arxiv情報

著者 Siyeop Yoon,Sifan Song,Pengfei Jin,Matthew Tivnan,Yujin Oh,Sekeun Kim,Dufan Wu,Xiang Li,Quanzheng Li
発行日 2025-05-28 15:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, eess.IV | Cascaded 3D Diffusion Models for Whole-body 3D 18-F FDG PET/CT synthesis from Demographics はコメントを受け付けていません

ProCrop: Learning Aesthetic Image Cropping from Professional Compositions

要約

画像のトリミングは、写真の視覚的な魅力と物語の影響を高めるために重要ですが、既存のルールベースとデータ駆動型のアプローチには多様性が欠けているか、注釈付きのトレーニングデータが必要です。
プロの写真を活用して作物の決定を導く検索ベースの方法であるProcropを紹介します。
プロの写真とクエリ画像の写真と融合することにより、Procropはプロの作曲から学び、パフォーマンスを大幅に向上させます。
さらに、専門的な画像を塗りつぶし、多様な作物の提案を繰り返し精製することによって生成される242kの弱い注釈付き画像の大規模なデータセットを提示します。
この構成認識データセット生成は、審美的な原則に導かれた多様な高品質の作物提案を提供し、画像トリミングのために最大の公開データセットになります。
広範な実験では、Procropが監督された設定と弱い監視設定の両方で既存の方法を大幅に上回ることが示されています。
特に、新しいデータセットで訓練された場合、Procropは以前の弱く監視された方法を上回り、完全に監視されたアプローチと一致します。
コードとデータセットの両方が、画像の美学と構成分析の研究を進めるために公開されます。

要約(オリジナル)

Image cropping is crucial for enhancing the visual appeal and narrative impact of photographs, yet existing rule-based and data-driven approaches often lack diversity or require annotated training data. We introduce ProCrop, a retrieval-based method that leverages professional photography to guide cropping decisions. By fusing features from professional photographs with those of the query image, ProCrop learns from professional compositions, significantly boosting performance. Additionally, we present a large-scale dataset of 242K weakly-annotated images, generated by out-painting professional images and iteratively refining diverse crop proposals. This composition-aware dataset generation offers diverse high-quality crop proposals guided by aesthetic principles and becomes the largest publicly available dataset for image cropping. Extensive experiments show that ProCrop significantly outperforms existing methods in both supervised and weakly-supervised settings. Notably, when trained on the new dataset, our ProCrop surpasses previous weakly-supervised methods and even matches fully supervised approaches. Both the code and dataset will be made publicly available to advance research in image aesthetics and composition analysis.

arxiv情報

著者 Ke Zhang,Tianyu Ding,Jiachen Jiang,Tianyi Chen,Ilya Zharkov,Vishal M. Patel,Luming Liang
発行日 2025-05-28 15:38:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ProCrop: Learning Aesthetic Image Cropping from Professional Compositions はコメントを受け付けていません

Risk-Sensitive Conformal Prediction for Catheter Placement Detection in Chest X-rays

要約

この論文では、胸部X線でのカテーテルとラインの位置検出に対する新しいアプローチを提示し、マルチタスク学習とリスクに敏感なコンフォーマル予測を組み合わせて、重要な臨床要件に対処します。
私たちのモデルは、同時に分類、セグメンテーション、ランドマークの検出を実行し、これらのタスク間の相乗的な関係を活用して、全体的なパフォーマンスを改善します。
さらに、臨床的に重要な発見に対してより高い信頼性を備えた統計的に保証された予測セットを提供する、リスクに敏感なコンフォーマル予測を通じて臨床的信頼性を高めます。
実験結果は、予測セットの顕著な精度を維持しながら、90.68 \%の全体的な経験的カバレッジと99.29 \%のカバレッジで優れたパフォーマンスを示します。
最も重要なことは、当社のリスクに敏感なアプローチは、ゼロの高リスクの誤処理を達成し(システムが問題のあるチューブが自信を持って正常であると危険なほど宣言する場合)、システムを臨床展開に特に適していることです。
この作業は、正確な予測と確実に定量化された不確実性の両方を提供します。これは、人生の批判的な医療アプリケーションに不可欠な機能です。

要約(オリジナル)

This paper presents a novel approach to catheter and line position detection in chest X-rays, combining multi-task learning with risk-sensitive conformal prediction to address critical clinical requirements. Our model simultaneously performs classification, segmentation, and landmark detection, leveraging the synergistic relationship between these tasks to improve overall performance. We further enhance clinical reliability through risk-sensitive conformal prediction, which provides statistically guaranteed prediction sets with higher reliability for clinically critical findings. Experimental results demonstrate excellent performance with 90.68\% overall empirical coverage and 99.29\% coverage for critical conditions, while maintaining remarkable precision in prediction sets. Most importantly, our risk-sensitive approach achieves zero high-risk mispredictions (cases where the system dangerously declares problematic tubes as confidently normal), making the system particularly suitable for clinical deployment. This work offers both accurate predictions and reliably quantified uncertainty — essential features for life-critical medical applications.

arxiv情報

著者 Long Hui
発行日 2025-05-28 15:47:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, stat.AP | Risk-Sensitive Conformal Prediction for Catheter Placement Detection in Chest X-rays はコメントを受け付けていません

The Meeseeks Mesh: Spatially Consistent 3D Adversarial Objects for BEV Detector

要約

3Dオブジェクト検出は、自律駆動システムの重要なコンポーネントです。
さまざまな環境条件下で、車両、歩行者、障害物のリアルタイム認識と検出が可能になります。
既存の方法の中で、鳥瞰図(BEV)での3Dオブジェクト検出が主流のフレームワークとして浮上しています。
安全で堅牢で信頼できる3Dオブジェクトの検出を保証するために、3D敵対的な攻撃が調査されます。そこでは、攻撃が3D環境に配置され、モデルのパフォーマンスを評価します。
3D敵対的攻撃に対する3Dオブジェクト検出モデルの脆弱性は、摂動に対するモデルの堅牢性を評価するための重要な指標として機能します。
この脆弱性を調査するために、実際の攻撃シナリオに合わせて調整された非侵襲的な3D敵対的なオブジェクトを生成します。
私たちの方法は、時間とカメラビュー全体で空間的に一貫している普遍的な敵対的なオブジェクトの存在を検証します。
具体的には、微分型レンダリング手法を採用して、敵対的なオブジェクトとターゲットビークルの間の空間的関係を正確にモデル化します。
さらに、さまざまな視点の下で視覚的な一貫性とリアリズムを強化するために、咬合とアウェアのモジュールを導入します。
複数のフレームにわたって攻撃の有効性を維持するために、私たちはBEV空間機能ガイドの最適化戦略を設計します。
実験結果は、私たちのアプローチが最先端の3Dオブジェクト検出器からの車両の予測を確実に抑制し、展開前に3Dオブジェクト検出モデルの堅牢性をテストするための重要なツールとして機能することを示しています。
さらに、生成された敵対的なオブジェクトは強力な一般化能力を示し、シーンのさまざまな位置と距離でその有効性を保持します。

要約(オリジナル)

3D object detection is a critical component in autonomous driving systems. It allows real-time recognition and detection of vehicles, pedestrians and obstacles under varying environmental conditions. Among existing methods, 3D object detection in the Bird’s Eye View (BEV) has emerged as the mainstream framework. To guarantee a safe, robust and trustworthy 3D object detection, 3D adversarial attacks are investigated, where attacks are placed in 3D environments to evaluate the model performance, e.g., putting a film on a car, clothing a pedestrian. The vulnerability of 3D object detection models to 3D adversarial attacks serves as an important indicator to evaluate the robustness of the model against perturbations. To investigate this vulnerability, we generate non-invasive 3D adversarial objects tailored for real-world attack scenarios. Our method verifies the existence of universal adversarial objects that are spatially consistent across time and camera views. Specifically, we employ differentiable rendering techniques to accurately model the spatial relationship between adversarial objects and the target vehicle. Furthermore, we introduce an occlusion-aware module to enhance visual consistency and realism under different viewpoints. To maintain attack effectiveness across multiple frames, we design a BEV spatial feature-guided optimization strategy. Experimental results demonstrate that our approach can reliably suppress vehicle predictions from state-of-the-art 3D object detectors, serving as an important tool to test robustness of 3D object detection models before deployment. Moreover, the generated adversarial objects exhibit strong generalization capabilities, retaining its effectiveness at various positions and distances in the scene.

arxiv情報

著者 Aixuan Li,Mochu Xiang,Jing Zhang,Yuchao Dai
発行日 2025-05-28 15:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Meeseeks Mesh: Spatially Consistent 3D Adversarial Objects for BEV Detector はコメントを受け付けていません

Latent Beam Diffusion Models for Decoding Image Sequences

要約

拡散モデルは、テキストプロンプトから高品質の画像を生成することに優れていますが、画像シーケンスの視覚的な一貫性と格闘しています。
既存の方法は、各画像を独立して生成し、ばらばらの物語につながります。これは、シーンが隣接するフレームを超えて接続する必要がある非線形ストーリーテリングでさらに悪化します。
潜在的なスペース探索のための新しいビーム検索戦略を導入し、ビーム検索デコードを備えた完全な画像シーケンスの条件付き生成を可能にします。
固定された潜在性の前方を使用する以前のアプローチとは異なり、この方法は潜在表現の最適なシーケンスを動的に検索し、コヒーレントな視覚遷移を確保します。
潜在的な除去スペースが検討されると、ビーム検索グラフは、検索パスを効率的にスコアリングし、テキストプロンプトと視覚的コンテキストの両方とのアライメントを優先するクロスアテンションメカニズムで剪定されます。
ヒューマンおよび自動評価は、BeamDiffusionが他のベースラインメソッドを上回ることを確認し、優れたコヒーレンス、視覚的連続性、およびテキストアライメントを備えた完全なシーケンスを生成します。

要約(オリジナル)

While diffusion models excel at generating high-quality images from text prompts, they struggle with visual consistency in image sequences. Existing methods generate each image independently, leading to disjointed narratives – a challenge further exacerbated in non-linear storytelling, where scenes must connect beyond adjacent frames. We introduce a novel beam search strategy for latent space exploration, enabling conditional generation of full image sequences with beam search decoding. Unlike prior approaches that use fixed latent priors, our method dynamically searches for an optimal sequence of latent representations, ensuring coherent visual transitions. As the latent denoising space is explored, the beam search graph is pruned with a cross-attention mechanism that efficiently scores search paths, prioritizing alignment with both textual prompts and visual context. Human and automatic evaluations confirm that BeamDiffusion outperforms other baseline methods, producing full sequences with superior coherence, visual continuity, and textual alignment.

arxiv情報

著者 Guilherme Fernandes,Vasco Ramos,Regev Cohen,Idan Szpektor,João Magalhães
発行日 2025-05-28 15:52:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Latent Beam Diffusion Models for Decoding Image Sequences はコメントを受け付けていません