Jointly Generating Multi-view Consistent PBR Textures using Collaborative Control

要約

マルチビューの一貫性は、画像拡散モデルにとって依然として課題です。
完全な幾何学的対応が先験的に知られているテキスト対テクスチャ問題の中でも、多くの方法ではビュー全体で位置合わせされた予測が得られず、結果を元のメッシュに組み込むために自明ではない融合方法が必要になります。
特に PBR テキストからテクスチャへの協調制御ワークフローについてこの問題を調査します。
Collaborative Control は、法線バンプ マップを含む PBR 画像の確率分布を直接モデル化します。
私たちの知る限り、完全な PBR スタックを直接出力する唯一の拡散モデルです。
このモデルをマルチビューで一貫性のあるものにするために必要な設計上の決定について説明し、アブレーション研究および実際のアプリケーションにおけるアプローチの有効性を実証します。

要約(オリジナル)

Multi-view consistency remains a challenge for image diffusion models. Even within the Text-to-Texture problem, where perfect geometric correspondences are known a priori, many methods fail to yield aligned predictions across views, necessitating non-trivial fusion methods to incorporate the results onto the original mesh. We explore this issue for a Collaborative Control workflow specifically in PBR Text-to-Texture. Collaborative Control directly models PBR image probability distributions, including normal bump maps; to our knowledge, the only diffusion model to directly output full PBR stacks. We discuss the design decisions involved in making this model multi-view consistent, and demonstrate the effectiveness of our approach in ablation studies, as well as practical applications.

arxiv情報

著者 Shimon Vainer,Konstantin Kutsy,Dante De Nigris,Ciara Rowles,Slava Elizarov,Simon Donné
発行日 2024-10-09 15:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | コメントする

A Unified Generative Framework for Realistic Lidar Simulation in Autonomous Driving Systems

要約

知覚センサーのシミュレーション モデルは、自動運転システム (ADS) の仮想検証および検証 (V\&V) に使用される自動車シミュレーターの不可欠なコンポーネントです。
これらのモデルは、深層学習ベースの知覚モデルをトレーニングするための合成データセットを生成するための強力なツールとしても機能します。
Lidar は、3D 環境スキャンの精度が高いため、ADS の知覚センサーの中で広く使用されているセンサー タイプです。
ただし、現実的な LiDAR シミュレーション モデルを開発することは、技術的に大きな課題です。
特に、非現実的なモデルでは、合成された点群と現実世界の点群の間に大きなギャップが生じ、ADS アプリケーションでの有効性が制限される可能性があります。
最近、現実的な感覚データを合成するための有望なソリューションとして、深層生成モデルが登場しています。
ただし、Lidar シミュレーションの場合、ディープ生成モデルは主に従来のアルゴリズムとハイブリッド化されており、統合された生成アプローチは文献でほとんど調査されていません。
この研究ギャップを動機として、私たちは Lidar シミュレーションの忠実度を高めるための統一された生成フレームワークを提案します。
私たちが提案するフレームワークは、可逆変換を介して Lidar 点群を深度反射画像に投影し、新しい制御可能な Lidar 点群生成モデル CoLiGen を使用して画像を変換します。
私たちは CoLiGen モデルを徹底的に評価し、さまざまな指標を使用して最先端の画像間変換モデルと比較し、下流の知覚モデルの現実性、忠実性、パフォーマンスを評価します。
私たちの結果は、CoLiGen がほとんどの指標において優れたパフォーマンスを示すことを示しています。
この研究のデータセットとソース コードは、https://github.com/hamedhaghighi/CoLiGen.git で入手できます。

要約(オリジナル)

Simulation models for perception sensors are integral components of automotive simulators used for the virtual Verification and Validation (V\&V) of Autonomous Driving Systems (ADS). These models also serve as powerful tools for generating synthetic datasets to train deep learning-based perception models. Lidar is a widely used sensor type among the perception sensors for ADS due to its high precision in 3D environment scanning. However, developing realistic Lidar simulation models is a significant technical challenge. In particular, unrealistic models can result in a large gap between the synthesised and real-world point clouds, limiting their effectiveness in ADS applications. Recently, deep generative models have emerged as promising solutions to synthesise realistic sensory data. However, for Lidar simulation, deep generative models have been primarily hybridised with conventional algorithms, leaving unified generative approaches largely unexplored in the literature. Motivated by this research gap, we propose a unified generative framework to enhance Lidar simulation fidelity. Our proposed framework projects Lidar point clouds into depth-reflectance images via a lossless transformation, and employs our novel Controllable Lidar point cloud Generative model, CoLiGen, to translate the images. We extensively evaluate our CoLiGen model, comparing it with the state-of-the-art image-to-image translation models using various metrics to assess the realness, faithfulness, and performance of a downstream perception model. Our results show that CoLiGen exhibits superior performance across most metrics. The dataset and source code for this research are available at https://github.com/hamedhaghighi/CoLiGen.git.

arxiv情報

著者 Hamed Haghighi,Mehrdad Dianati,Valentina Donzella,Kurt Debattista
発行日 2024-10-09 15:26:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, eess.IV | コメントする

A Diffusion-based Xray2MRI Model: Generating Pseudo-MRI Volumes From one Single X-ray

要約

変形性膝関節症 (KOA) は一般的な筋骨格系疾患であり、その診断には費用対効果の高い X 線がよく使用されます。
一方、磁気共鳴画像法 (MRI) は詳細な軟組織の視覚化を提供し、KOA の貴重な補助診断ツールとなっています。
残念ながら、MRI はコストが高く、アクセスしやすさが限られているため、その普及が妨げられており、多くの KOA 患者は X 線画像のみに依存しています。
この研究では、1 枚の X 線画像から疑似 MRI ボリュームを生成できる新しい拡散ベースの Xray2MRI モデルを紹介します。
X 線を条件付き入力として使用することに加えて、私たちのモデルはターゲット深さ、KOA 確率分布、および画像強度分布モジュールを統合して合成プロセスをガイドし、生成された対応するスライスが解剖学的構造に正確に対応することを保証します。
実験結果は、X 線からの情報を追加の入力データと統合することにより、提案されたアプローチが実際の MRI スキャンに近似する擬似 MRI シーケンスを生成できることを示しています。
さらに、推論時間を増やすことにより、モデルは効果的な補間を実現し、生成された MRI シーケンスの連続性と滑らかさをさらに向上させ、費用対効果の高い医療画像ソリューションの有望な初期の試みの 1 つを示しています。

要約(オリジナル)

Knee osteoarthritis (KOA) is a prevalent musculoskeletal disorder, and X-rays are commonly used for its diagnosis due to their cost-effectiveness. Magnetic Resonance Imaging (MRI), on the other hand, offers detailed soft tissue visualization and has become a valuable supplementary diagnostic tool for KOA. Unfortunately, the high cost and limited accessibility of MRI hinder its widespread use, leaving many patients with KOA reliant solely on X-ray imaging. In this study, we introduce a novel diffusion-based Xray2MRI model capable of generating pseudo-MRI volumes from one single X-ray image. In addition to using X-rays as conditional input, our model integrates target depth, KOA probability distribution, and image intensity distribution modules to guide the synthesis process, ensuring that the generated corresponding slices accurately correspond to the anatomical structures. Experimental results demonstrate that by integrating information from X-rays with additional input data, our proposed approach is capable of generating pseudo-MRI sequences that approximate real MRI scans. Moreover, by increasing the inference times, the model achieves effective interpolation, further improving the continuity and smoothness of the generated MRI sequences, representing one promising initial attempt for cost-effective medical imaging solutions.

arxiv情報

著者 Zhe Wang,Rachid Jennane,Aladine Chetouani,Mohamed Jarraya
発行日 2024-10-09 15:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする

Can Your Generative Model Detect Out-of-Distribution Covariate Shift?

要約

分布外 (OOD) の感覚データと共変量分布のシフトの検出は、キャプチャされたセット、正常なセット、および分布内 (ID) セットとは異なる高レベルの画像統計を含む新しいテスト サンプルを特定することを目的としています。
既存の OOD 検出文献は主に意味シフトに焦点を当てており、共変量シフトに関するコンセンサスはほとんどありません。
生成モデルは教師なしの方法で ID データをキャプチャし、下流のタスクに関係なく、この学習された分布から大きく逸脱するサンプルを効果的に識別できるようにします。
この研究では、さまざまなモデルを含む広範な分析を通じて、ドメイン固有の共変量シフトを検出および定量化する生成モデルの能力を解明します。
この目的を達成するには、高周波信号に依存する詳細と独立した詳細をモデル化するだけで、発生するほとんどの感覚障害 (全体的な信号統計の異常と逸脱) を検出するだけで十分であると推測します。
我々は、OOD 検出のための新しい方法 CovariateFlow を提案します。これは、特に条件付き正規化フロー (cNF) を使用して不均一分散の高周波画像コンポーネントを共変量するように調整されています。
CIFAR10 対 CIFAR10-C および ImageNet200 対 ImageNet200-C の結果は、OOD 共変量シフトを正確に検出することによるこの方法の有効性を示しています。
この研究は、イメージング システムの忠実度を向上させ、共変量シフトが存在する場合の OOD 検出における機械学習モデルの支援に貢献します。

要約(オリジナル)

Detecting Out-of-Distribution (OOD) sensory data and covariate distribution shift aims to identify new test examples with different high-level image statistics to the captured, normal and In-Distribution (ID) set. Existing OOD detection literature largely focuses on semantic shift with little-to-no consensus over covariate shift. Generative models capture the ID data in an unsupervised manner, enabling them to effectively identify samples that deviate significantly from this learned distribution, irrespective of the downstream task. In this work, we elucidate the ability of generative models to detect and quantify domain-specific covariate shift through extensive analyses that involves a variety of models. To this end, we conjecture that it is sufficient to detect most occurring sensory faults (anomalies and deviations in global signals statistics) by solely modeling high-frequency signal-dependent and independent details. We propose a novel method, CovariateFlow, for OOD detection, specifically tailored to covariate heteroscedastic high-frequency image-components using conditional Normalizing Flows (cNFs). Our results on CIFAR10 vs. CIFAR10-C and ImageNet200 vs. ImageNet200-C demonstrate the effectiveness of the method by accurately detecting OOD covariate shift. This work contributes to enhancing the fidelity of imaging systems and aiding machine learning models in OOD detection in the presence of covariate shift.

arxiv情報

著者 Christiaan Viviers,Amaan Valiuddin,Francisco Caetano,Lemar Abdi,Lena Filatova,Peter de With,Fons van der Sommen
発行日 2024-10-09 15:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Preference Fine-Tuning for Factuality in Chest X-Ray Interpretation Models Without Human Feedback

要約

放射線科医は、医療画像を医療レポートに変換するという重要な役割を果たします。
しかし、現場は人材不足と業務量の増加に直面しています。
ビジョン言語モデル (VLM) を使用した自動化アプローチはアシスタントとして有望ですが、非常に高い精度が必要です。
放射線医学における現在の VLM のほとんどは、教師あり微調整 (SFT) のみに依存しています。
一方、一般的な領域では、追加の設定の微調整が標準的な手法となっています。
放射線医学における課題は、放射線科医のフィードバックを得るのに法外なコストがかかることにあります。
私たちは、胸部 X 線 (CXR) レポートの生成に焦点を当て、放射線医学における VLM のためのスケーラブルな自動プリファレンス調整技術を提案します。
私たちの方法では、LLM-as-a-Judge メカニズムを備えた公的に利用可能なデータセットを活用しており、追加の専門放射線科医のフィードバックの必要性を排除しています。
私たちは 5 つのダイレクト アライメント アルゴリズム (DAA) を評価し、ベンチマークを行います。
その結果、SFT ベースラインと比較して、CXR レポートを評価するための LLM ベースの指標である平均 GREEN スコアが最大 57.4% 向上し、6 つの指標 (ドメイン固有および一般) の平均が 9.2% 向上したことがわかりました。
私たちは長さの悪用による報酬の過剰最適化を研究しており、レポートは最大 3.2 倍も長くなっています。
潜在的な調整税を評価するために、追加の 6 つの多様なタスクをベンチマークしましたが、重大な低下は見つかりませんでした。
4 人の認定放射線科医が参加した読者調査では、勝率が SFT ベースラインを最大 0.62 上回る一方で、冗長性が著しく不利になることが示されています。
私たちの分析は、放射線医学のような一か八かの分野における VLM の開発に実用的な洞察を提供します。

要約(オリジナル)

Radiologists play a crucial role by translating medical images into medical reports. However, the field faces staffing shortages and increasing workloads. While automated approaches using vision-language models (VLMs) show promise as assistants, they require exceptionally high accuracy. Most current VLMs in radiology rely solely on supervised fine-tuning (SFT). Meanwhile, in the general domain, additional preference fine-tuning has become standard practice. The challenge in radiology lies in the prohibitive cost of obtaining radiologist feedback. We propose a scalable automated preference alignment technique for VLMs in radiology, focusing on chest X-ray (CXR) report generation. Our method leverages publicly available datasets with an LLM-as-a-Judge mechanism, eliminating the need for additional expert radiologist feedback. We evaluate and benchmark five direct alignment algorithms (DAAs). Our results show up to a 57.4% improvement in average GREEN scores, a LLM-based metric for evaluating CXR reports, and a 9.2% increase in an average across six metrics (domain specific and general), compared to the SFT baseline. We study reward overoptimization via length exploitation, with reports lengthening by up to 3.2x. To assess a potential alignment tax, we benchmark on six additional diverse tasks, finding no significant degradations. A reader study involving four board-certified radiologists indicates win rates of up to 0.62 over the SFT baseline, while significantly penalizing verbosity. Our analysis provides actionable insights for the development of VLMs in high-stakes fields like radiology.

arxiv情報

著者 Dennis Hein,Zhihong Chen,Sophie Ostmeier,Justin Xu,Maya Varma,Eduardo Pontes Reis,Arne Edward Michalson,Christian Bluethgen,Hyun Joo Shin,Curtis Langlotz,Akshay S Chaudhari
発行日 2024-10-09 16:07:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models

要約

拡散モデル (DM) は、テキストから画像への生成において目覚ましい成功を収めていますが、有害なコンテンツや著作権侵害の生成の可能性など、安全上のリスクももたらします。
概念消去としても知られる機械のアンラーニングの手法は、これらのリスクに対処するために開発されました。
ただし、これらの技術は依然として敵対的プロンプト攻撃に対して脆弱であり、DM が学習後に消去されるはずの概念 (ヌードなど) を含む望ましくない画像を再生成する可能性があります。
この研究は、敵対的トレーニング (AT) の原理を機械の非学習に統合することで概念消去の堅牢性を強化することを目的としており、その結果、AdvUnlearn と呼ばれる堅牢な非学習フレームワークが実現します。
ただし、これを効果的かつ効率的に達成することは非常に困難です。
まず、AT を単純に実装すると、DM の学習後の画像生成品質が損なわれることがわかりました。
これに対処するために、追加の保持セットに対するユーティリティ保持正則化を開発し、AdvUnlearn での概念消去の堅牢性とモデルのユーティリティの間のトレードオフを最適化します。
さらに、UNet と比較してテキスト エンコーダが堅牢化に適したモジュールであると特定し、非学習の有効性を確保します。
そして、取得されたテキスト エンコーダーは、さまざまな DM タイプに対するプラグ アンド プレイの堅牢なアンラーナーとして機能できます。
経験的に、私たちは、ヌード、オブジェクト、スタイル概念の消去など、さまざまな DM 学習解除シナリオにわたって AdvUnlearn の堅牢性の利点を実証するために広範な実験を実行しました。
堅牢性に加えて、AdvUnlearn はモデルの実用性とのバランスの取れたトレードオフも実現します。
私たちの知る限り、これは AT を介してロバストな DM のアンラーニングを体系的に調査した最初の研究であり、概念消去におけるロバスト性を無視する既存の方法とは一線を画しています。
コードはhttps://github.com/OPTML-Group/AdvUnlearnから入手できます。

要約(オリジナル)

Diffusion models (DMs) have achieved remarkable success in text-to-image generation, but they also pose safety risks, such as the potential generation of harmful content and copyright violations. The techniques of machine unlearning, also known as concept erasing, have been developed to address these risks. However, these techniques remain vulnerable to adversarial prompt attacks, which can prompt DMs post-unlearning to regenerate undesired images containing concepts (such as nudity) meant to be erased. This work aims to enhance the robustness of concept erasing by integrating the principle of adversarial training (AT) into machine unlearning, resulting in the robust unlearning framework referred to as AdvUnlearn. However, achieving this effectively and efficiently is highly nontrivial. First, we find that a straightforward implementation of AT compromises DMs’ image generation quality post-unlearning. To address this, we develop a utility-retaining regularization on an additional retain set, optimizing the trade-off between concept erasure robustness and model utility in AdvUnlearn. Moreover, we identify the text encoder as a more suitable module for robustification compared to UNet, ensuring unlearning effectiveness. And the acquired text encoder can serve as a plug-and-play robust unlearner for various DM types. Empirically, we perform extensive experiments to demonstrate the robustness advantage of AdvUnlearn across various DM unlearning scenarios, including the erasure of nudity, objects, and style concepts. In addition to robustness, AdvUnlearn also achieves a balanced tradeoff with model utility. To our knowledge, this is the first work to systematically explore robust DM unlearning through AT, setting it apart from existing methods that overlook robustness in concept erasing. Codes are available at: https://github.com/OPTML-Group/AdvUnlearn

arxiv情報

著者 Yimeng Zhang,Xin Chen,Jinghan Jia,Yihua Zhang,Chongyu Fan,Jiancheng Liu,Mingyi Hong,Ke Ding,Sijia Liu
発行日 2024-10-09 16:12:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | コメントする

Clean Evaluations on Contaminated Visual Language Models

要約

大規模言語モデル (LLM) をクリーンに評価する方法は、汚染されている可能性のある LLM のパフォーマンスを純粋に報告するための重要な研究時代として確立されています。
しかし、視覚言語モデル (VLM) を適切に評価する方法は十分に研究されていない問題です。
我々は、視覚入力情報のデータ拡張手法を通じてそのような目標を達成するための新しいアプローチを提案します。
次に、数千のデータ インスタンスを使用して、新しい視覚的にクリーンな評価ベンチマークを作成します。
広範な実験を通じて、従来の視覚データ拡張手法は有用であるものの、回避策としてトレーニング データの一部として使用される危険性があることがわかりました。
さらに、BGR 拡張を使用して視覚情報のカラー チャネルを切り替えることを提案します。
これは、データ汚染の影響を軽減するためのシンプルかつ効果的な方法であることがわかりましたが、幸いなことに、トレーニング中にデータ拡張方法として使用すると有害でもあります。
これは、このようなデータ拡張を悪意のあるトレーナーによるトレーニングに組み込むのは難しく、視覚的な LLM をクリーンに評価するための有望な手法である可能性があることを意味します。
コード、データ、およびモデルの重みは、出版時に公開されます。

要約(オリジナル)

How to evaluate large language models (LLMs) cleanly has been established as an important research era to genuinely report the performance of possibly contaminated LLMs. Yet, how to cleanly evaluate the visual language models (VLMs) is an under-studied problem. We propose a novel approach to achieve such goals through data augmentation methods on the visual input information. We then craft a new visual clean evaluation benchmark with thousands of data instances. Through extensive experiments, we found that the traditional visual data augmentation methods are useful, but they are at risk of being used as a part of the training data as a workaround. We further propose using BGR augmentation to switch the colour channel of the visual information. We found that it is a simple yet effective method for reducing the effect of data contamination and fortunately, it is also harmful to be used as a data augmentation method during training. It means that it is hard to integrate such data augmentation into training by malicious trainers and it could be a promising technique to cleanly evaluate visual LLMs. Our code, data, and model weights will be released upon publication.

arxiv情報

著者 Hongyuan Lu,Shujie Miao,Wai Lam
発行日 2024-10-09 16:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

Z-upscaling: Optical Flow Guided Frame Interpolation for Isotropic Reconstruction of 3D EM Volumes

要約

我々は、異方性 3D EM ボリュームの軸解像度を向上させて等方性 3D 再構成を実現する、新しいオプティカル フロー ベースのアプローチを提案します。
適切に位置合わせされた EM ボリューム内の 3D 生物学的構造の空間的連続性を仮定すると、ビデオの時間解像度の向上によく適用されるオプティカル フロー推定技術を利用できると考えられます。
ピクセル レベルの動きは、空間勾配フロー推定を使用して補間して新しい 2D スライスを生成し、等方性ボクセルを生成することにより、z に沿った隣接する 2D スライス間で推定されます。
私たちは、ビデオ フレーム補間および転移学習技術のための最新の学習方法を活用し、公的に入手可能な超微細構造 EM ボリュームに対するアプローチの成功を実証します。

要約(オリジナル)

We propose a novel optical flow based approach to enhance the axial resolution of anisotropic 3D EM volumes to achieve isotropic 3D reconstruction. Assuming spatial continuity of 3D biological structures in well aligned EM volumes, we reasoned that optical flow estimation techniques, often applied for temporal resolution enhancement in videos, can be utilized. Pixel level motion is estimated between neighboring 2D slices along z, using spatial gradient flow estimates to interpolate and generate new 2D slices resulting in isotropic voxels. We leverage recent state-of-the-art learning methods for video frame interpolation and transfer learning techniques, and demonstrate the success of our approach on publicly available ultrastructure EM volumes.

arxiv情報

著者 Fisseha A. Ferede,Ali Khalighifar,Jaison John,Krishnan Venkataraman,Khaled Khairy
発行日 2024-10-09 16:34:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする

S2HPruner: Soft-to-Hard Distillation Bridges the Discretization Gap in Pruning

要約

最近、微分可能なマスク枝刈り手法により、優れたサブアーキテクチャ検索のために枝刈りされた離散ネットワーク (ハード ネットワーク) のプロキシとして連続緩和アーキテクチャ (ソフト ネットワーク) が最適化されています。
ただし、離散化プロセスの不可知論的な影響により、ハード ネットワークはソフト ネットワークと同等の表現能力、つまり離散化ギャップに苦戦し、枝刈りのパフォーマンスを大幅に損ないます。
この論文では、まず離散化ギャップを調査し、1 段階で離散化ギャップを埋めるための S2HPruner と呼ばれる新しい構造微分可能なマスク プルーニング フレームワークを提案します。
トレーニング手順では、SH2Pruner はソフト ネットワークとそれに対応するハード ネットワークの両方を転送し、ソフト ネットワークの監視下でハード ネットワークを抽出します。
マスクを最適化し、パフォーマンスの低下を防ぐために、分離された双方向の知識の蒸留を提案します。
マスクに対応する勾配を維持しながら、ハード ネットワークからソフト ネットワークへの重み更新をブロックします。
既存のプルーニング技術と比較して、S2HPruner は、CIFAR-100、Tiny ImageNet、さまざまなネットワーク アーキテクチャを備えた ImageNet などの包括的なベンチマークで微調整することなく、優れたプルーニング パフォーマンスを達成します。
さらに、調査と分析実験により、S2HPruner の有効性が説明されます。
コードは近日公開予定です。

要約(オリジナル)

Recently, differentiable mask pruning methods optimize the continuous relaxation architecture (soft network) as the proxy of the pruned discrete network (hard network) for superior sub-architecture search. However, due to the agnostic impact of the discretization process, the hard network struggles with the equivalent representational capacity as the soft network, namely discretization gap, which severely spoils the pruning performance. In this paper, we first investigate the discretization gap and propose a novel structural differentiable mask pruning framework named S2HPruner to bridge the discretization gap in a one-stage manner. In the training procedure, SH2Pruner forwards both the soft network and its corresponding hard network, then distills the hard network under the supervision of the soft network. To optimize the mask and prevent performance degradation, we propose a decoupled bidirectional knowledge distillation. It blocks the weight updating from the hard to the soft network while maintaining the gradient corresponding to the mask. Compared with existing pruning arts, S2HPruner achieves surpassing pruning performance without fine-tuning on comprehensive benchmarks, including CIFAR-100, Tiny ImageNet, and ImageNet with a variety of network architectures. Besides, investigation and analysis experiments explain the effectiveness of S2HPruner. Codes will be released soon.

arxiv情報

著者 Weihao Lin,Shengji Tang,Chong Yu,Peng Ye,Tao Chen
発行日 2024-10-09 16:36:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling

要約

ビデオとオーディオの双方向の条件付き生成に合わせたマルチモーダル拡散モデルを紹介します。
視覚と聴覚の同期を改善するために、共同対照トレーニング損失を提案します。
提案したモデルの有効性を評価するために、2 つのデータセットでの実験を紹介します。
発電品質と調整パフォーマンスの評価は、客観的指標と主観的指標の両方を含むさまざまな角度から実行されます。
私たちの調査結果は、新しいクロスモーダル easy fusion アーキテクチャ ブロックの導入により、提案されたモデルが品質と生成速度の点でベースラインを上回っていることを示しています。
さらに、コントラスト損失を組み込むことにより、特に高相関のビデオからオーディオへの生成タスクにおいて、オーディオとビジュアルの調整が改善されます。

要約(オリジナル)

We introduce a multi-modal diffusion model tailored for the bi-directional conditional generation of video and audio. We propose a joint contrastive training loss to improve the synchronization between visual and auditory occurrences. We present experiments on two datasets to evaluate the efficacy of our proposed model. The assessment of generation quality and alignment performance is carried out from various angles, encompassing both objective and subjective metrics. Our findings demonstrate that the proposed model outperforms the baseline in terms of quality and generation speed through introduction of our novel cross-modal easy fusion architectural block. Furthermore, the incorporation of the contrastive loss results in improvements in audio-visual alignment, particularly in the high-correlation video-to-audio generation task.

arxiv情報

著者 Ruihan Yang,Hannes Gamper,Sebastian Braun
発行日 2024-10-09 16:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントする