InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems

要約

拡散モデルは、逆の問題の処理において顕著な能力を示しており、高品質の後サンプリングベースのソリューションを提供しています。
大きな進歩にもかかわらず、条件付けされた合成の採用方法に関しては、基本的なトレードオフが続きます。トレーニングベースの方法は高品質の結果を達成し、ゼロショットアプローチはこれを柔軟性で取引します。
この作業では、両方の最高の世界を組み合わせたフレームワークを紹介します。これは、監視されたアプローチの強力なパフォーマンスとゼロショット方法の柔軟性です。
これは、劣化オペレーターを非脱asに直接シームレスに統合する新しい建築設計によって達成されます。
各ブロックで、提案されたアーキテクチャは、ネットワークのアクティベーションと条件に劣化オペレーターを適用し、注意メカニズムを使用して出力を条件にし、高性能を維持しながら多様な劣化シナリオへの適応を可能にします。
私たちの研究は、提案されたアーキテクチャの多様性を示しており、一般的なMMSE推定器、後部サンプラー、または神経後部の主成分推定器として機能します。
この柔軟性により、幅広いダウンストリームタスクが可能になり、フレームワークの幅広い適用性が強調されています。
脱aserネットワークの提案された変更は、多用途で正確で計算上の効率的なソリューションを提供し、複雑な逆問題のための専用ネットワークアーキテクチャの利点を実証します。
FFHQおよびImagenetデータセットの実験結果は、トレーニングベースとゼロショットの両方の代替品を超える最先端の後部サンプリングパフォーマンスを示しています。

要約(オリジナル)

Diffusion Models have demonstrated remarkable capabilities in handling inverse problems, offering high-quality posterior-sampling-based solutions. Despite significant advances, a fundamental trade-off persists, regarding the way the conditioned synthesis is employed: Training-based methods achieve high quality results, while zero-shot approaches trade this with flexibility. This work introduces a framework that combines the best of both worlds — the strong performance of supervised approaches and the flexibility of zero-shot methods. This is achieved through a novel architectural design that seamlessly integrates the degradation operator directly into the denoiser. In each block, our proposed architecture applies the degradation operator on the network activations and conditions the output using the attention mechanism, enabling adaptation to diverse degradation scenarios while maintaining high performance. Our work demonstrates the versatility of the proposed architecture, operating as a general MMSE estimator, a posterior sampler, or a Neural Posterior Principal Component estimator. This flexibility enables a wide range of downstream tasks, highlighting the broad applicability of our framework. The proposed modification of the denoiser network offers a versatile, accurate, and computationally efficient solution, demonstrating the advantages of dedicated network architectures for complex inverse problems. Experimental results on the FFHQ and ImageNet datasets demonstrate state-of-the-art posterior-sampling performance, surpassing both training-based and zero-shot alternatives.

arxiv情報

著者 Noam Elata,Hyungjin Chung,Jong Chul Ye,Tomer Michaeli,Michael Elad
発行日 2025-04-02 12:40:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems はコメントを受け付けていません

Towards Physically Plausible Video Generation via VLM Planning

要約

ビデオ拡散モデル(VDMS)は近年大幅に進歩しており、非常に現実的なビデオの生成を可能にし、世界のシミュレータとしての可能性にコミュニティの注目を集めています。
ただし、その能力にもかかわらず、VDMは物理学の理解が固有の不足のために物理的にもっともらしいビデオを作成できないことが多く、その結果、ダイナミクスとイベントシーケンスが誤っています。
この制限に対処するために、物理学を明示的に組み込んだ新しい2段階の画像からビデオへの生成フレームワークを提案します。
最初の段階では、粗粒のモーションプランナーとしてビジョン言語モデル(VLM)を採用し、考え方と物理学を意識した推論を統合して、概算間の物理的ダイナミクスを近似しながら、総合的なモーション軌道/変化を予測しながら、フレーム間の一貫性を確保します。
第2段階では、VDMのビデオ生成をガイドするために、予測されるモーション軌跡/変更を使用します。
予測される動きの軌跡/変更が粗いため、推論中にノイズが追加され、より細かい詳細で動きを生成する際にVDMに自由を提供します。
広範な実験結果は、私たちのフレームワークが物理的にもっともらしい動きを生み出すことができることを示しており、比較評価は既存の方法に対するアプローチの顕著な優位性を強調しています。
その他のビデオ結果は、プロジェクトページのページ(https://madaoer.github.io/projects/physicily_plausible_video_generation)で入手できます。

要約(オリジナル)

Video diffusion models (VDMs) have advanced significantly in recent years, enabling the generation of highly realistic videos and drawing the attention of the community in their potential as world simulators. However, despite their capabilities, VDMs often fail to produce physically plausible videos due to an inherent lack of understanding of physics, resulting in incorrect dynamics and event sequences. To address this limitation, we propose a novel two-stage image-to-video generation framework that explicitly incorporates physics. In the first stage, we employ a Vision Language Model (VLM) as a coarse-grained motion planner, integrating chain-of-thought and physics-aware reasoning to predict a rough motion trajectories/changes that approximate real-world physical dynamics while ensuring the inter-frame consistency. In the second stage, we use the predicted motion trajectories/changes to guide the video generation of a VDM. As the predicted motion trajectories/changes are rough, noise is added during inference to provide freedom to the VDM in generating motion with more fine details. Extensive experimental results demonstrate that our framework can produce physically plausible motion, and comparative evaluations highlight the notable superiority of our approach over existing methods. More video results are available on our Project Page: https://madaoer.github.io/projects/physically_plausible_video_generation.

arxiv情報

著者 Xindi Yang,Baolu Li,Yiming Zhang,Zhenfei Yin,Lei Bai,Liqian Ma,Zhiyong Wang,Jianfei Cai,Tien-Tsin Wong,Huchuan Lu,Xu Jia
発行日 2025-04-02 13:05:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards Physically Plausible Video Generation via VLM Planning はコメントを受け付けていません

Why Autonomous Vehicles Are Not Ready Yet: A Multi-Disciplinary Review of Problems, Attempted Solutions, and Future Directions

要約

個人の自動運転車は、周囲の環境を感知し、ルートを計画し、人間のドライバーのほとんど、またはまったく関与しない運転をすることができる車、トラック、自転車です。
最近業界が行った印象的な技術的成果と、主要な起業家による希望に満ちた発表にもかかわらず、これまでに「完全」または「半」の自律モード(自律レベル4および5)での道路循環について個人車両は承認されていません。
現在のレビューでは、自動運転車の商業化を困難に遅らせる問題を特定することを目的として、自動セクターが直面する主要な課題を調査するために、統合的かつ学際的なアプローチを採用しています。
このレビューでは、現在のテクノロジーに関連する制限とリスク、および研究者が考案した最も有望なソリューションを検証します。
この否定的な評価方法は、悲観論によって動機付けられているのではなく、技術の最先端、業界の品質基準、社会の要求と期待についての批判的な認識を高めることを願うことによって動機付けられています。
調査は主に知覚とナビゲーションのための人工知能の応用に焦点を当てていますが、純粋に技術的な側面を、文化的態度、概念的仮定、規範的(倫理的)フレームワークなど、関連する人間中心の側面と結びつける拡大された画像を提供することも目的としています。
より広い文脈を調べることは、学際的な範囲を持つ問題を強調し、全体的な考慮事項から利益を得る可能性のある解決策を特定するのに役立ちます。

要約(オリジナル)

Personal autonomous vehicles are cars, trucks and bikes capable of sensing their surrounding environment, planning their route, and driving with little or no involvement of human drivers. Despite the impressive technological achievements made by the industry in recent times and the hopeful announcements made by leading entrepreneurs, to date no personal vehicle is approved for road circulation in a ‘fully’ or ‘semi’ autonomous mode (autonomy levels 4 and 5) and it is still unclear when such vehicles will eventually be mature enough to receive this kind of approval. The present review adopts an integrative and multidisciplinary approach to investigate the major challenges faced by the automative sector, with the aim to identify the problems that still trouble and delay the commercialization of autonomous vehicles. The review examines the limitations and risks associated with current technologies and the most promising solutions devised by the researchers. This negative assessment methodology is not motivated by pessimism, but by the aspiration to raise critical awareness about the technology’s state-of-the-art, the industry’s quality standards, and the society’s demands and expectations. While the survey primarily focuses on the applications of artificial intelligence for perception and navigation, it also aims to offer an enlarged picture that links the purely technological aspects with the relevant human-centric aspects, including, cultural attitudes, conceptual assumptions, and normative (ethico-legal) frameworks. Examining the broader context serves to highlight problems that have a cross-disciplinary scope and identify solutions that may benefit from a holistic consideration.

arxiv情報

著者 Xingshuai Dong,Max Cappuccio,Hamad Al Jassmi,Fady Alnajjar,Essam Debie,Milad Ghasrikhouzani,Alessandro Lanteri,Ali Luqman,Tate McGregor,Oleksandra Molloy,Alice Plebe,Michael Regan,Dongmo Zhang
発行日 2025-04-02 13:11:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Why Autonomous Vehicles Are Not Ready Yet: A Multi-Disciplinary Review of Problems, Attempted Solutions, and Future Directions はコメントを受け付けていません

DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation

要約

この論文では、潜在空間で適応的な時間的圧縮を利用できるトレーニングなしのパラダイムである動的潜在フレームレートVAE(DLFR-vae)を提案します。
既存のビデオ生成モデルは、前処理されたVAEを介して固定圧縮速度を適用しますが、実際のビデオコンテンツは、静的なシーンよりも多くの情報を含むハイモーションセグメントを含むかなりの時間的非均一性を示すことを観察します。
この洞察に基づいて、DLFR-Vaeはコンテンツの複雑さに応じて潜在フレームレートを動的に調整します。
具体的には、DLFR-Vaeは2つのコアイノベーションで構成されています。(1)動画を時間的チャンクに分割し、情報理論的コンテンツの複雑さに基づいて最適なフレームレートを適応的に決定する動的な潜在フレームレートスケジューラ、および(2)前型の型アーキテクチャを動的なVAEに変換するトレーニングなしの適応メカニズムを変換することができます。
当社のシンプルだが効果的なDLFR-Vaeは、既存のビデオ生成モデルとシームレスに統合され、ビデオ生成プロセスを加速するプラグアンドプレイモジュールとして機能できます。

要約(オリジナル)

In this paper, we propose the Dynamic Latent Frame Rate VAE (DLFR-VAE), a training-free paradigm that can make use of adaptive temporal compression in latent space. While existing video generative models apply fixed compression rates via pretrained VAE, we observe that real-world video content exhibits substantial temporal non-uniformity, with high-motion segments containing more information than static scenes. Based on this insight, DLFR-VAE dynamically adjusts the latent frame rate according to the content complexity. Specifically, DLFR-VAE comprises two core innovations: (1) A Dynamic Latent Frame Rate Scheduler that partitions videos into temporal chunks and adaptively determines optimal frame rates based on information-theoretic content complexity, and (2) A training-free adaptation mechanism that transforms pretrained VAE architectures into a dynamic VAE that can process features with variable frame rates. Our simple but effective DLFR-VAE can function as a plug-and-play module, seamlessly integrating with existing video generation models and accelerating the video generation process.

arxiv情報

著者 Zhihang Yuan,Siyuan Wang,Rui Xie,Hanling Zhang,Tongcheng Fang,Yuzhang Shang,Shengen Yan,Guohao Dai,Yu Wang
発行日 2025-04-02 13:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation はコメントを受け付けていません

{GSR4B}: Biomass Map Super-Resolution with Sentinel-1/2 Guidance

要約

大規模および高空間的解像度の両方での正確な地上バイオマス(AGB)マッピングは、気候モデリングから生物多様性評価、持続可能なサプライチェーン監視に至るまでのアプリケーションに不可欠です。
現在、細粒のAGBマッピングは、通常、地域のスケールに限定された費用のかかる空中レーザースキャン買収キャンペーンに依存しています。
ESA CCIマップなどのイニシアチブは、多様な宇宙媒介センサーからグローバルなバイオマス製品を生成しようとしますが、より粗い解像度です。
グローバルで高解像度(HR)マッピングを可能にするために、ESA Sentinel-1/2画像などのHR衛星観測からAGBを退行することを提案します。
HR衛星観測と既存の低解像度(LR)バイオマス製品の両方を活用することにより、HR AGB推定に対処するための新しい方法を提案します。
この問題は、ガイド付きの超解像度(GSR)としてキャストされ、補助HR共登録された衛星画像(ガイド)を使用して、LRバイオマスマップ(ソース)を100ドルから10ドルの解像度にアップサンプリングすることを目指しています。
ガイダンスの有無にかかわらず、衛星画像からの直接回帰、パブリックバイオマスターデータセットとの超分解AGBマップを比較します。
マルチスケールガイダンス(MSG)は、回帰($ -780 $ T/ha RMSE)と知覚($+2.0 $ db psnr)メトリックの両方で直接回帰を上回り、重要な計算オーバーヘッドなしで高ビオマス値をよりよくキャプチャすることが観察されます。
興味深いことに、元々設計されたRGB+深度設定とは異なり、私たちの最高のパフォーマンスのAGB GSRアプローチは、ガイド画像のテクスチャを最も保持するものです。
私たちの結果は、大規模な正確なHRバイオマスマッピングのためにGSRフレームワークを採用することを強く主張しています。
コードとモデルの重みは、公開されています(https://github.com/kaankaramanofficial/gsr4b)。

要約(オリジナル)

Accurate Above-Ground Biomass (AGB) mapping at both large scale and high spatio-temporal resolution is essential for applications ranging from climate modeling to biodiversity assessment, and sustainable supply chain monitoring. At present, fine-grained AGB mapping relies on costly airborne laser scanning acquisition campaigns usually limited to regional scales. Initiatives such as the ESA CCI map attempt to generate global biomass products from diverse spaceborne sensors but at a coarser resolution. To enable global, high-resolution (HR) mapping, several works propose to regress AGB from HR satellite observations such as ESA Sentinel-1/2 images. We propose a novel way to address HR AGB estimation, by leveraging both HR satellite observations and existing low-resolution (LR) biomass products. We cast this problem as Guided Super-Resolution (GSR), aiming at upsampling LR biomass maps (sources) from $100$ to $10$ m resolution, using auxiliary HR co-registered satellite images (guides). We compare super-resolving AGB maps with and without guidance, against direct regression from satellite images, on the public BioMassters dataset. We observe that Multi-Scale Guidance (MSG) outperforms direct regression both for regression ($-780$ t/ha RMSE) and perception ($+2.0$ dB PSNR) metrics, and better captures high-biomass values, without significant computational overhead. Interestingly, unlike the RGB+Depth setting they were originally designed for, our best-performing AGB GSR approaches are those that most preserve the guide image texture. Our results make a strong case for adopting the GSR framework for accurate HR biomass mapping at scale. Our code and model weights are made publicly available (https://github.com/kaankaramanofficial/GSR4B).

arxiv情報

著者 Kaan Karaman,Yuchang Jiang,Damien Robert,Vivien Sainte Fare Garnot,Maria João Santos,Jan Dirk Wegner
発行日 2025-04-02 13:28:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | {GSR4B}: Biomass Map Super-Resolution with Sentinel-1/2 Guidance はコメントを受け付けていません

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation

要約

インターリーブされた画像テキスト生成は、クエリを与えられたインターリーブ視覚およびテキストコンテンツのシーケンスを作成することを目的とした、重要なマルチモーダルタスクとして浮上しています。
最近のマルチモーダル大手言語モデル(MLLM)での顕著な進歩にもかかわらず、物語の一貫性とエンティティとスタイルの一貫性を示す統合された画像テキストシーケンスを生成することは、トレーニングデータの品質が低いために困難なままです。
このギャップに対処するために、Commを紹介します。これは、生成されたマルチモーダルコンテンツのコヒーレンス、一貫性、およびアライメントを強化するために設計された高品質のコヒーレントインターリーブ画像マルチモーダルデータセットです。
当初、Commはさまざまなソースから生データを利用し、指導コンテンツと視覚的なストーリーテリングに焦点を当て、一貫性と一貫したコンテンツの基盤を確立します。
データ品質をさらに絞り込むために、高度な事前訓練モデルを活用して、文の開発、挿入された画像の一貫性、およびそれらの間のセマンティックアライメントを確保する多面的なフィルター戦略を考案します。
さまざまな品質評価メトリックが、フィルタリングされたデータセットの高品質を証明するように設計されています。
一方、さまざまなダウンストリームタスクでの広範な少ないショット実験は、MLLMSのコンテキスト学習能力を大幅に向上させるCommの有効性を示しています。
さらに、包括的な評価フレームワークによってサポートされているMLLMのインターリーブ生成能力を評価するための4つの新しいタスクを提案します。
Commは、優れたマルチモーダルでのコンテキスト学習と理解能力を備えた高度なMLLMの新しい道を開くと信じています。

要約(オリジナル)

Interleaved image-text generation has emerged as a crucial multimodal task, aiming at creating sequences of interleaved visual and textual content given a query. Despite notable advancements in recent multimodal large language models (MLLMs), generating integrated image-text sequences that exhibit narrative coherence and entity and style consistency remains challenging due to poor training data quality. To address this gap, we introduce CoMM, a high-quality Coherent interleaved image-text MultiModal dataset designed to enhance the coherence, consistency, and alignment of generated multimodal content. Initially, CoMM harnesses raw data from diverse sources, focusing on instructional content and visual storytelling, establishing a foundation for coherent and consistent content. To further refine the data quality, we devise a multi-perspective filter strategy that leverages advanced pre-trained models to ensure the development of sentences, consistency of inserted images, and semantic alignment between them. Various quality evaluation metrics are designed to prove the high quality of the filtered dataset. Meanwhile, extensive few-shot experiments on various downstream tasks demonstrate CoMM’s effectiveness in significantly enhancing the in-context learning capabilities of MLLMs. Moreover, we propose four new tasks to evaluate MLLMs’ interleaved generation abilities, supported by a comprehensive evaluation framework. We believe CoMM opens a new avenue for advanced MLLMs with superior multimodal in-context learning and understanding ability.

arxiv情報

著者 Wei Chen,Lin Li,Yongqi Yang,Bin Wen,Fan Yang,Tingting Gao,Yu Wu,Long Chen
発行日 2025-04-02 13:30:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation はコメントを受け付けていません

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

要約

最近の画像ベースのヒューマンアニメーション方法は、現実的な身体と顔の動きの合成を実現しますが、重要なギャップは、微細な全体的な制御可能性、マルチスケール適応性、および長期的な時間的一貫性を維持し、表現力と堅牢性の低下につながります。
これらの制限を克服するためのハイブリッドガイダンスを備えた拡散トランス(DIT)ベースのフレームワーク、DreamActor-M1を提案します。
モーションガイダンスのために、暗黙の顔の表現、3Dヘッド球体、3Dボディスケルトンを統合するハイブリッド制御シグナルは、表情型およびアイデンティティを提供するアニメーションを生成しながら、表情と身体の動きの堅牢な制御を実現します。
スケール適応のために、ポートレートから全身ビューに至るまでのさまざまなボディポーズや画像スケールを処理するために、さまざまな解像度とスケールを備えたデータを使用してプログレッシブトレーニング戦略を採用しています。
外観ガイダンスのために、シーケンシャルフレームからのモーションパターンを補完的な視覚参照と統合し、複雑な動き中に目に見えない領域の長期的な時間的一貫性を確保します。
実験は、私たちの方法が最先端の作品よりも優れていることを示しており、ポートレート、上半身、および全身の生成に表現力豊かな結果を提供し、堅牢な長期の一貫性をもたらします。
プロジェクトページ:https://grisoon.github.io/dreamactor-m1/。

要約(オリジナル)

While recent image-based human animation methods achieve realistic body and facial motion synthesis, critical gaps remain in fine-grained holistic controllability, multi-scale adaptability, and long-term temporal coherence, which leads to their lower expressiveness and robustness. We propose a diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid guidance to overcome these limitations. For motion guidance, our hybrid control signals that integrate implicit facial representations, 3D head spheres, and 3D body skeletons achieve robust control of facial expressions and body movements, while producing expressive and identity-preserving animations. For scale adaptation, to handle various body poses and image scales ranging from portraits to full-body views, we employ a progressive training strategy using data with varying resolutions and scales. For appearance guidance, we integrate motion patterns from sequential frames with complementary visual references, ensuring long-term temporal coherence for unseen regions during complex movements. Experiments demonstrate that our method outperforms the state-of-the-art works, delivering expressive results for portraits, upper-body, and full-body generation with robust long-term consistency. Project Page: https://grisoon.github.io/DreamActor-M1/.

arxiv情報

著者 Yuxuan Luo,Zhengkun Rong,Lizhen Wang,Longhao Zhang,Tianshu Hu,Yongming Zhu
発行日 2025-04-02 13:30:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance はコメントを受け付けていません

FIORD: A Fisheye Indoor-Outdoor Dataset with LIDAR Ground Truth for 3D Scene Reconstruction and Benchmarking

要約

大規模な3Dシーンの再構築と新規ビューの合成方法の開発は、主に狭い視野(FOV)を持つ視点画像を含むデータセットに依存しています。
小規模なシーンには効果的ですが、これらのデータセットには大きな画像セットとモーションからの広範な構造(SFM)処理が必要で、スケーラビリティが制限されます。
これに対処するために、シーンの再構築タスクに合わせて調整されたフィッシュアイ画像データセットを紹介します。
デュアル200度フィッシュアイレンズを使用して、データセットは、5つの屋内と5つの屋外シーンの360度のカバーを完全に提供します。
各シーンには、SFMポイントクラウドがまばらになり、幾何学的な地下真実として使用できるLidar由来の密なポイント雲があり、閉塞や反射などの困難な条件下で堅牢なベンチマークを可能にします。
ベースライン実験は、バニラガウススプラッティングとNERFベースのネルファクトメソッドに焦点を当てていますが、データセットはシーンの再構築、新しいビューの合成、画像ベースのレンダリングのための多様なアプローチをサポートしています。

要約(オリジナル)

The development of large-scale 3D scene reconstruction and novel view synthesis methods mostly rely on datasets comprising perspective images with narrow fields of view (FoV). While effective for small-scale scenes, these datasets require large image sets and extensive structure-from-motion (SfM) processing, limiting scalability. To address this, we introduce a fisheye image dataset tailored for scene reconstruction tasks. Using dual 200-degree fisheye lenses, our dataset provides full 360-degree coverage of 5 indoor and 5 outdoor scenes. Each scene has sparse SfM point clouds and precise LIDAR-derived dense point clouds that can be used as geometric ground-truth, enabling robust benchmarking under challenging conditions such as occlusions and reflections. While the baseline experiments focus on vanilla Gaussian Splatting and NeRF based Nerfacto methods, the dataset supports diverse approaches for scene reconstruction, novel view synthesis, and image-based rendering.

arxiv情報

著者 Ulas Gunes,Matias Turkulainen,Xuqian Ren,Arno Solin,Juho Kannala,Esa Rahtu
発行日 2025-04-02 13:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FIORD: A Fisheye Indoor-Outdoor Dataset with LIDAR Ground Truth for 3D Scene Reconstruction and Benchmarking はコメントを受け付けていません

AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization

要約

GPT-4OやLlavaなどの大きなビジョン言語モデル(LVLMS)は、最近顕著な進歩を目撃し、実際のアプリケーションでますます展開されています。
ただし、視覚ニューラルネットワークの感度を継承するLVLMは、誤った攻撃に対して脆弱なままであり、誤ったまたは悪意のある出力をもたらす可能性があります。
既存の努力は敵対的な微調整を利用して堅牢性を高めることができますが、彼らはしばしばきれいな入力のパフォーマンスの低下に苦しんでいます。
この論文では、好みの最適化に基づいてLVLMSの新しい敵対的な防衛戦略であるADPOを提案します。
初めて、敵対的なトレーニングを優先最適化問題として再構成し、敵対例の潜在的な誤解を招く出力を拒否しながら、クリーンな入力で通常の出力を生成するためのモデルの好みを強化することを目指しています。
特に、ADPOは、画像エンコーダー、たとえばClip VITを変更することでこれを達成し、さまざまなダウンズリームタスクで優れたクリーンで敵対的なパフォーマンスをもたらします。
トレーニングには大きな言語モデル(LLM)が含まれることを考慮すると、計算コストは​​大幅に増加します。
より小さなLVLMSでのトレーニングを検証し、その後、より大きなモデルに転送することで、ベースライン方法に匹敵する効率を維持しながら、競争力のあるパフォーマンスを達成できます。
当社の包括的な実験は、提案されたADPOの有効性を確認します。これは、将来の敵対的防衛研究のための新しい視点を提供します。

要約(オリジナル)

Large Vision-Language Models (LVLMs), such as GPT-4o and LLaVA, have recently witnessed remarkable advancements and are increasingly being deployed in real-world applications. However, inheriting the sensitivity of visual neural networks, LVLMs remain vulnerable to adversarial attacks, which can result in erroneous or malicious outputs. While existing efforts utilize adversarial fine-tuning to enhance robustness, they often suffer from performance degradation on clean inputs. In this paper, we proposes AdPO, a novel adversarial defense strategy for LVLMs based on preference optimization. For the first time, we reframe adversarial training as a preference optimization problem, aiming to enhance the model’s preference for generating normal outputs on clean inputs while rejecting the potential misleading outputs for adversarial examples. Notably, AdPO achieves this by solely modifying the image encoder, e.g., CLIP ViT, resulting in superior clean and adversarial performance in a variety of downsream tasks. Considering that training involves large language models (LLMs), the computational cost increases significantly. We validate that training on smaller LVLMs and subsequently transferring to larger models can achieve competitive performance while maintaining efficiency comparable to baseline methods. Our comprehensive experiments confirm the effectiveness of the proposed AdPO, which provides a novel perspective for future adversarial defense research.

arxiv情報

著者 Chaohu Liu,Tianyi Gui,Yu Liu,Linli Xu
発行日 2025-04-02 13:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization はコメントを受け付けていません

Understanding Cross-Model Perceptual Invariances Through Ensemble Metamers

要約

人工ニューラルネットワークの知覚的な侵略性を理解することは、説明可能性を改善し、モデルを人間の視力に合わせるために不可欠です。
メタマー – 物理的に明確でありながら同一の神経活性化を生成する刺激 – これらの侵略性を調査するための貴重なツールとして機能します。
人工ニューラルネットワークのアンサンブルを活用することにより、メタマー生成への新しいアプローチを導入し、畳み込みニューラルネットワークやビジョントランスなどの多様なアーキテクチャ全体で共有された表現サブスペースをキャプチャします。
生成されたメタマーの特性を特徴付けるために、セマンティックフィデリティや自然性などの要因を評価する画像ベースのメトリックスイートを使用します。
我々の調査結果は、畳み込みニューラルネットワークがより認識可能で人間のようなメタマーを生成し、視覚変圧器が現実的ではあるが透過性の低いメタマーを生成し、表現侵略者に対する建築バイアスの影響を強調することを示しています。

要約(オリジナル)

Understanding the perceptual invariances of artificial neural networks is essential for improving explainability and aligning models with human vision. Metamers – stimuli that are physically distinct yet produce identical neural activations – serve as a valuable tool for investigating these invariances. We introduce a novel approach to metamer generation by leveraging ensembles of artificial neural networks, capturing shared representational subspaces across diverse architectures, including convolutional neural networks and vision transformers. To characterize the properties of the generated metamers, we employ a suite of image-based metrics that assess factors such as semantic fidelity and naturalness. Our findings show that convolutional neural networks generate more recognizable and human-like metamers, while vision transformers produce realistic but less transferable metamers, highlighting the impact of architectural biases on representational invariances.

arxiv情報

著者 Lukas Boehm,Jonas Leo Mueller,Christoffer Loeffler,Leo Schwinn,Bjoern Eskofier,Dario Zanca
発行日 2025-04-02 13:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Understanding Cross-Model Perceptual Invariances Through Ensemble Metamers はコメントを受け付けていません