CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning

要約

このペーパーでは、生の波形に直接適用されるリアルタイムの因果オーディオ除去用に設計されたタイムドメインニューラルネットワークアーキテクチャであるCleanumambaを紹介します。
Cleanumambaは、ボトルネック層にMamba状態空間モデルを組み込んだU-Netエンコーダーデコーダー構造を活用します。
従来の自己告発とLSTMメカニズムをMambaに置き換えることにより、私たちのアーキテクチャは、一定のメモリフットプリントを維持しながら、優れた除去パフォーマンスを提供し、ストリーミング操作を可能にします。
効率を向上させるために、構造化されたチャネル剪定を適用し、オーディオ品質を損なうことなくモデルサイズの8倍の削減を達成しました。
私たちのモデルは、Speech 2020深部ノイズ抑制チャレンジで強い結果を示しています。
具体的には、CleanumambaはPESQスコア2.42とSTOIを95.1%で、442Kパラメーターと468m MACのみで、リアルタイムパフォーマンスで大きなモデルをマッチングまたはアウトパフォームします。
コードはhttps://github.com/lab-emi/cleanumambaで入手できます

要約(オリジナル)

This paper presents CleanUMamba, a time-domain neural network architecture designed for real-time causal audio denoising directly applied to raw waveforms. CleanUMamba leverages a U-Net encoder-decoder structure, incorporating the Mamba state-space model in the bottleneck layer. By replacing conventional self-attention and LSTM mechanisms with Mamba, our architecture offers superior denoising performance while maintaining a constant memory footprint, enabling streaming operation. To enhance efficiency, we applied structured channel pruning, achieving an 8X reduction in model size without compromising audio quality. Our model demonstrates strong results in the Interspeech 2020 Deep Noise Suppression challenge. Specifically, CleanUMamba achieves a PESQ score of 2.42 and STOI of 95.1% with only 442K parameters and 468M MACs, matching or outperforming larger models in real-time performance. Code will be available at: https://github.com/lab-emi/CleanUMamba

arxiv情報

著者 Sjoerd Groot,Qinyu Chen,Jan C. van Gemert,Chang Gao
発行日 2025-02-10 18:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning はコメントを受け付けていません

ViSIR: Vision Transformer Single Image Reconstruction Method for Earth System Models

要約

目的:地球システムモデル(ESM)大気、海、陸地、氷、生物圏の相互作用を統合して、さまざまな条件下で地域および世界の気候の状態を推定します。
ESMは非常に複雑であるため、深いニューラルネットワークアーキテクチャを使用して複雑さをモデル化し、ダウンサンプリングデータを保存します。
このホワイトペーパーでは、ESMデータの単一画像SR(SR)再構成タスクを改善するために、Vision Transformer Sinusoidal表現ネットワーク(VISIR)を提案します。
方法:Visirは、SR視力変圧器(VIT)のSR能力を組み合わせて、SRタスクで観察されるスペクトルバイアスに対処するために、正弦波表現ネットワーク(SIREN)の高周波詳細保存を組み合わせています。
結果:VISIRは、3つの異なる測定で平均7.1dB PSNR緩衝されたSR世代敵(SRガン)、SR世代の敵対的(SR-Gans)を4.1 dB、7.5 dB、Sr世代の敵対的(SR-Gans)よりも優れています。
結論:提案されたVISIRが評価され、最先端の方法と比較されます。
結果は、提案されたアルゴリズムが平均平方根誤差(MSE)、ピークシグナルからノイズへの比例(PSNR)、および構造類似性指数測定(SSIM)の観点から他の方法を上回っていることを示しています。

要約(オリジナル)

Purpose: Earth system models (ESMs) integrate the interactions of the atmosphere, ocean, land, ice, and biosphere to estimate the state of regional and global climate under a wide variety of conditions. The ESMs are highly complex, and thus, deep neural network architectures are used to model the complexity and store the down-sampled data. In this paper, we propose the Vision Transformer Sinusoidal Representation Networks (ViSIR) to improve the single image SR (SR) reconstruction task for the ESM data. Methods: ViSIR combines the SR capability of Vision Transformers (ViT) with the high-frequency detail preservation of the Sinusoidal Representation Network (SIREN) to address the spectral bias observed in SR tasks. Results: The ViSIR outperforms ViT by 4.1 dB, SIREN by 7.5 dB, and SR-Generative Adversarial (SR-GANs) by 7.1dB PSNR on average for three different measurements. Conclusion: The proposed ViSIR is evaluated and compared with state-of-the-art methods. The results show that the proposed algorithm is outperforming other methods in terms of Mean Square Error(MSE), Peak-Signal-to-Noise-Ratio(PSNR), and Structural Similarity Index Measure(SSIM).

arxiv情報

著者 Ehsan Zeraatkar,Salah Faroughi,Jelena Tesic
発行日 2025-02-10 18:09:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ViSIR: Vision Transformer Single Image Reconstruction Method for Earth System Models はコメントを受け付けていません

DPD-NeuralEngine: A 22-nm 6.6-TOPS/W/mm$^2$ Recurrent Neural Network Accelerator for Wideband Power Amplifier Digital Pre-Distortion

要約

最新の通信システムにおけるDeep Neural Network(DNN)ベースのデジタルプレディスターション(DPD)の採用の増加には、効率的なハードウェアの実装が必要です。
このホワイトペーパーでは、ゲート再生ユニット(GRU)ニューラルネットワーク(NN)に基づいて、超高速、小さなエリア、および電力効率の高いDPDアクセラレータであるDPD-NeuralEngineを紹介します。
共同設計のソフトウェアとハ​​ードウェアアプローチを活用して、22 nm CMOS実装は2 GHzで動作し、最大250 MSPのI/Q信号を処理できます。
実験結果は、-45.3 DBCの隣接チャネル電力比(ACPR)および-39.8 dBのエラーベクトルの大きさ(EVM)で測定されたDPD線形化パフォーマンスを使用して、256.5 GOPSのスループットと1.32トップ/Wの電力効率を示しています。
私たちの知る限り、この作業は、最初のAIベースのDPDアプリケーション固有の統合回路(ASIC)アクセラレータを表し、6.6 TOPS/W/MM $^2 $の電力エリア効率(PAE)を達成します。

要約(オリジナル)

The increasing adoption of Deep Neural Network (DNN)-based Digital Pre-distortion (DPD) in modern communication systems necessitates efficient hardware implementations. This paper presents DPD-NeuralEngine, an ultra-fast, tiny-area, and power-efficient DPD accelerator based on a Gated Recurrent Unit (GRU) neural network (NN). Leveraging a co-designed software and hardware approach, our 22 nm CMOS implementation operates at 2 GHz, capable of processing I/Q signals up to 250 MSps. Experimental results demonstrate a throughput of 256.5 GOPS and power efficiency of 1.32 TOPS/W with DPD linearization performance measured in Adjacent Channel Power Ratio (ACPR) of -45.3 dBc and Error Vector Magnitude (EVM) of -39.8 dB. To our knowledge, this work represents the first AI-based DPD application-specific integrated circuit (ASIC) accelerator, achieving a power-area efficiency (PAE) of 6.6 TOPS/W/mm$^2$.

arxiv情報

著者 Ang Li,Haolin Wu,Yizhuo Wu,Qinyu Chen,Leo C. N. de Vreede,Chang Gao
発行日 2025-02-10 18:16:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CV | DPD-NeuralEngine: A 22-nm 6.6-TOPS/W/mm$^2$ Recurrent Neural Network Accelerator for Wideband Power Amplifier Digital Pre-Distortion はコメントを受け付けていません

Wandering around: A bioinspired approach to visual attention through object motion sensitivity

要約

アクティブビジョンは、動的な視覚的知覚を可能にし、大規模なデータセットと高い計算リソースに依存するコンピュータービジョンの静的なフィードフォワードアーキテクチャの代替品を提供します。
生物学的選択的注意メカニズムにより、エージェントは関心のある顕著な領域(ROI)に焦点を合わせ、リアルタイムの応答性を維持しながら計算需要を減らします。
哺乳類の網膜に触発されたイベントベースのカメラは、非同期シーンの変化をキャプチャすることにより、効率的な低遅延処理を可能にすることにより、この機能を強化します。
イベントベースのカメラが動いている間に移動するオブジェクトを区別するために、エージェントはターゲットを正確に検出し、視野(Fovea)に集中するためにオブジェクトモーションセグメンテーションメカニズムを必要とします。
イベントベースのセンサーと神経型アルゴリズムを統合することは、スパイクニューラルネットワークを使用して計算を並列化し、動的環境に適応するパラダイムシフトを表します。
この作業は、オブジェクトのモーション感度を介して選択的な注意を払うために、スパイク畳み込みの畳み込みニューラルネットワークバイオインスパイアされた注意システムを提示します。
このシステムは、PAN-TILTユニットに取り付けられたSpeck Neuromorphic Hardwareに統合された動的ビジョンセンサーを使用して、ROIとサッカードを識別して、固定眼球運動を介してイベントを生成します。
このシステムは、理想的な格子を使用してイベントカメラのモーションセグメンテーションデータセットに対してベンチマークされていることを特徴づけ、マルチオブジェクトモーションセグメンテーションで82.2%の平均IOUと96%の平均SSIMに達します。
顕著なオブジェクトの検出は、オフィスシナリオで88.8%の精度に達し、イベント支援の低光照明ビデオオブジェクトセグメンテーションデータセットでは低光条件で89.8%に達します。
リアルタイムのデモンストレーターは、動的シーンに対するシステムの0.12秒の応答を示しています。
その学習のない設計により、知覚シーン全体の堅牢性が保証され、より複雑なアーキテクチャの基礎として機能するリアルタイムロボットアプリケーションの信頼できる基盤となります。

要約(オリジナル)

Active vision enables dynamic visual perception, offering an alternative to static feedforward architectures in computer vision, which rely on large datasets and high computational resources. Biological selective attention mechanisms allow agents to focus on salient Regions of Interest (ROIs), reducing computational demand while maintaining real-time responsiveness. Event-based cameras, inspired by the mammalian retina, enhance this capability by capturing asynchronous scene changes enabling efficient low-latency processing. To distinguish moving objects while the event-based camera is in motion the agent requires an object motion segmentation mechanism to accurately detect targets and center them in the visual field (fovea). Integrating event-based sensors with neuromorphic algorithms represents a paradigm shift, using Spiking Neural Networks to parallelize computation and adapt to dynamic environments. This work presents a Spiking Convolutional Neural Network bioinspired attention system for selective attention through object motion sensitivity. The system generates events via fixational eye movements using a Dynamic Vision Sensor integrated into the Speck neuromorphic hardware, mounted on a Pan-Tilt unit, to identify the ROI and saccade toward it. The system, characterized using ideal gratings and benchmarked against the Event Camera Motion Segmentation Dataset, reaches a mean IoU of 82.2% and a mean SSIM of 96% in multi-object motion segmentation. The detection of salient objects reaches 88.8% accuracy in office scenarios and 89.8% in low-light conditions on the Event-Assisted Low-Light Video Object Segmentation Dataset. A real-time demonstrator shows the system’s 0.12 s response to dynamic scenes. Its learning-free design ensures robustness across perceptual scenes, making it a reliable foundation for real-time robotic applications serving as a basis for more complex architectures.

arxiv情報

著者 Giulia D Angelo,Victoria Clerico,Chiara Bartolozzi,Matej Hoffmann,P. Michael Furlong,Alexander Hadjiivanov
発行日 2025-02-10 18:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Wandering around: A bioinspired approach to visual attention through object motion sensitivity はコメントを受け付けていません

Accelerating Data Processing and Benchmarking of AI Models for Pathology

要約

基礎モデリングの進歩により、計算病理学が再形成されました。
ただし、利用可能なモデルの数が増え、標準化されたベンチマークの不足により、その強み、制限、およびさらなる開発の可能性を評価するのがますます複雑になります。
これらの課題に対処するために、全面的な画像処理、基礎モデルのベンチマーク、公開されたタスクのキュレーションのための新しいソフトウェアツールスイートを紹介します。
これらのリソースは、フィールドの透明性、再現性、継続的な進歩を促進すると予想しています。

要約(オリジナル)

Advances in foundation modeling have reshaped computational pathology. However, the increasing number of available models and lack of standardized benchmarks make it increasingly complex to assess their strengths, limitations, and potential for further development. To address these challenges, we introduce a new suite of software tools for whole-slide image processing, foundation model benchmarking, and curated publicly available tasks. We anticipate that these resources will promote transparency, reproducibility, and continued progress in the field.

arxiv情報

著者 Andrew Zhang,Guillaume Jaume,Anurag Vaidya,Tong Ding,Faisal Mahmood
発行日 2025-02-10 18:23:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Accelerating Data Processing and Benchmarking of AI Models for Pathology はコメントを受け付けていません

Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

要約

ビジョンモデルを真に理解するには、学習した機能を解釈するだけでなく、制御された実験を通じてこれらの解釈を検証する必要があります。
現在のアプローチは、因果関係のある影響をテストする機能なしで解釈可能な機能を提供するか、解釈可能なコントロールなしでモデル編集を有効にします。
このギャップを橋渡しするスパース自動エンコーダー(SAE)を使用して統一されたフレームワークを提示し、人間が解釈できる視覚的特徴を発見し、モデルの動作に関する仮説をテストするためにそれらを正確に操作できるようにします。
最先端のビジョンモデルに方法を適用することにより、さまざまなトレーニング目標を持つモデルによって学習されたセマンティック抽象化の重要な違いを明らかにします。
次に、複数のビジョンタスクにわたる制御された介入を通じて、フレームワークの実際的な使用を実証します。
SAEは、モデルの再トレーニングなしで解釈可能な視覚的特徴を確実に識別し、操作できることを示し、ビジョンモデルの動作を理解および制御するための強力なツールを提供します。
プロジェクトWebサイトでコード、デモ、モデルを提供します:https://osu-nlp-group.github.io/sae-v。

要約(オリジナル)

To truly understand vision models, we must not only interpret their learned features but also validate these interpretations through controlled experiments. Current approaches either provide interpretable features without the ability to test their causal influence, or enable model editing without interpretable controls. We present a unified framework using sparse autoencoders (SAEs) that bridges this gap, allowing us to discover human-interpretable visual features and precisely manipulate them to test hypotheses about model behavior. By applying our method to state-of-the-art vision models, we reveal key differences in the semantic abstractions learned by models with different pre-training objectives. We then demonstrate the practical usage of our framework through controlled interventions across multiple vision tasks. We show that SAEs can reliably identify and manipulate interpretable visual features without model re-training, providing a powerful tool for understanding and controlling vision model behavior. We provide code, demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.

arxiv情報

著者 Samuel Stevens,Wei-Lun Chao,Tanya Berger-Wolf,Yu Su
発行日 2025-02-10 18:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models はコメントを受け付けていません

SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement

要約

この論文では、広く既存の粗いマスクの品質を向上させる主要な方法を探り、セグメンテーションモデルの信頼できるトレーニングデータとして、注釈コストを削減できるようにします。
特定のモデルまたはタスクに合わせて世界的な方法で調整された以前の改良技術とは対照的に、Samefinerをマスク改良タスクに適応させる普遍的で効率的なアプローチであるSamrefinerを提案します。
モデルのコアテクニックは、ノイズ耐性プロンプトスキームです。
具体的には、初期の粗いマスクからSAM(つまり、距離誘導ポイント、コンテキスト対応の弾性境界ボックス、ガウススタイルのマスク)の多様な入力プロンプトを採掘するためのマルチプロムプト掘削戦略を導入します。
これらのプロンプトは互いに協力して、粗いマスクの欠陥の効果を軽減できます。
特に、SAMがセマンティックセグメンテーションでマルチオブジェクトケースを処理するのが難しいことを考慮すると、スプリットツェンマージ(STM)パイプラインを導入します。
さらに、ターゲットデータセットでの汎用Samrefinerのパフォーマンスをさらに高めるために、追加のIOU適応ステップを導入することにより、Samrefiner ++にメソッドを拡張します。
このステップは自己促進されており、追加の注釈は必要ありません。
提案されたフレームワークは多用途であり、既存のセグメンテーション方法と柔軟に協力することができます。
さまざまな設定で幅広いベンチマークでマスクフレームワークを評価し、より良い精度と効率を示しています。
Samrefinerは、洗練ツールの進化を促進する重要な可能性を保持しています。
私たちのコードは、https://github.com/linyq2117/samrefinerで入手できます。

要約(オリジナル)

In this paper, we explore a principal way to enhance the quality of widely pre-existing coarse masks, enabling them to serve as reliable training data for segmentation models to reduce the annotation cost. In contrast to prior refinement techniques that are tailored to specific models or tasks in a close-world manner, we propose SAMRefiner, a universal and efficient approach by adapting SAM to the mask refinement task. The core technique of our model is the noise-tolerant prompting scheme. Specifically, we introduce a multi-prompt excavation strategy to mine diverse input prompts for SAM (i.e., distance-guided points, context-aware elastic bounding boxes, and Gaussian-style masks) from initial coarse masks. These prompts can collaborate with each other to mitigate the effect of defects in coarse masks. In particular, considering the difficulty of SAM to handle the multi-object case in semantic segmentation, we introduce a split-then-merge (STM) pipeline. Additionally, we extend our method to SAMRefiner++ by introducing an additional IoU adaption step to further boost the performance of the generic SAMRefiner on the target dataset. This step is self-boosted and requires no additional annotation. The proposed framework is versatile and can flexibly cooperate with existing segmentation methods. We evaluate our mask framework on a wide range of benchmarks under different settings, demonstrating better accuracy and efficiency. SAMRefiner holds significant potential to expedite the evolution of refinement tools. Our code is available at https://github.com/linyq2117/SAMRefiner.

arxiv情報

著者 Yuqi Lin,Hengjia Li,Wenqi Shao,Zheng Yang,Jun Zhao,Xiaofei He,Ping Luo,Kaipeng Zhang
発行日 2025-02-10 18:33:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement はコメントを受け付けていません

Emotion estimation from video footage with LSTM

要約

一般的な感情の推定は、長い間研究されてきた分野であり、機械学習を使用していくつかのアプローチが存在します。
このホワイトペーパーでは、カメラのライブストリームで検出された顔のために、ライブラリメディアピペによって生成されたブレンド形状を処理するLSTMモデルを提示し、表情から主な感情を推定するために、このモデルは
FER2013データセットと、FER2013データセットの精度ベンチマークを満たす71%の精度と62%のF1スコアの結果を提供し、計算コストを大幅に削減します。
https://github.com/samir-atra/emotion_estimation_from_video_footage_with_lstm_ml_algorithm

要約(オリジナル)

Emotion estimation in general is a field that has been studied for a long time, and several approaches exist using machine learning. in this paper, we present an LSTM model, that processes the blend-shapes produced by the library MediaPipe, for a face detected in a live stream of a camera, to estimate the main emotion from the facial expressions, this model is trained on the FER2013 dataset and delivers a result of 71% accuracy and 62% f1-score which meets the accuracy benchmark of the FER2013 dataset, with significantly reduced computation costs. https://github.com/Samir-atra/Emotion_estimation_from_video_footage_with_LSTM_ML_algorithm

arxiv情報

著者 Samer Attrah
発行日 2025-02-10 18:37:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T40, cs.CV, cs.LG, cs.RO, I.2.9 | Emotion estimation from video footage with LSTM はコメントを受け付けていません

History-Guided Video Diffusion

要約

分類器フリーガイダンス(CFG)は、拡散モデルの条件付き生成を改善するための重要な手法であり、サンプル品質を向上させながらより正確な制御を可能にします。
この手法をビデオ拡散に拡張することは自然です。これにより、歴史と呼ばれるさまざまな数のコンテキストフレームに条件付けられたビデオを生成します。
ただし、さまざまな長さの履歴を導くための2つの重要な課題が見つかります。固定サイズのコンディショニングのみをサポートするアーキテクチャと、CFGス​​タイルの履歴ドロップアウトのパフォーマンスが低いという経験的観察です。
これに対処するために、拡散強制変圧器(DFOT)、ビデオ拡散アーキテクチャ、および理論的に根拠のあるトレーニング目標を提案し、柔軟な数の履歴フレームのコンディショニングを共同で可能にします。
次に、DFOTによって独自に可能になったガイダンス方法のファミリーであるHistory Guidanceを紹介します。
その最も単純なフォームであるバニラの歴史ガイダンスが、すでにビデオ生成の品質と時間的一貫性を大幅に改善していることを示しています。
より高度な方法、時間と頻度にわたる履歴ガイダンスは、モーションダイナミクスをさらに強化し、分散式の履歴に合わせた一般化を可能にし、非常に長いビデオを安定に展開できます。
ウェブサイト:https://boyuan.space/history-guidance

要約(オリジナル)

Classifier-free guidance (CFG) is a key technique for improving conditional generation in diffusion models, enabling more accurate control while enhancing sample quality. It is natural to extend this technique to video diffusion, which generates video conditioned on a variable number of context frames, collectively referred to as history. However, we find two key challenges to guiding with variable-length history: architectures that only support fixed-size conditioning, and the empirical observation that CFG-style history dropout performs poorly. To address this, we propose the Diffusion Forcing Transformer (DFoT), a video diffusion architecture and theoretically grounded training objective that jointly enable conditioning on a flexible number of history frames. We then introduce History Guidance, a family of guidance methods uniquely enabled by DFoT. We show that its simplest form, vanilla history guidance, already significantly improves video generation quality and temporal consistency. A more advanced method, history guidance across time and frequency further enhances motion dynamics, enables compositional generalization to out-of-distribution history, and can stably roll out extremely long videos. Website: https://boyuan.space/history-guidance

arxiv情報

著者 Kiwhan Song,Boyuan Chen,Max Simchowitz,Yilun Du,Russ Tedrake,Vincent Sitzmann
発行日 2025-02-10 18:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | History-Guided Video Diffusion はコメントを受け付けていません

Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation

要約

テキストからイメージ(T2I)生成拡散モデルは、テキストキャプションから多様で高品質のビジュアルを合成する際に優れたパフォーマンスを実証しています。
セグメンテーションマップ、エッジ、人間のキーポイントなど、幅広いレイアウトを利用することにより、生成プロセスを制御するためのいくつかのレイアウトモデルが開発されました。
この作業では、objectDiffusionを提案します。これは、セマンティックおよび空間接地情報にT2I拡散モデルを条件付け、境界ボックスによって定義された特定の場所に目的のオブジェクトを正確にレンダリングと配置することを可能にします。
これを達成するために、ControlNetで導入されたネットワークアーキテクチャを大幅に変更して、Gligenで提案された接地方法と統合します。
COCO2017トレーニングデータセットでObjectDiffusionを微調整し、COCO2017検証データセットで評価します。
私たちのモデルは、制御可能な画像生成の精度と品質を改善し、46.6のAP $ _ {\ Text {50}} $を達成し、44.5のAR、および19.8のFIDを達成し、オープンソースデータセットで訓練された現在のSOTAモデルを上回る
3つのメトリックすべてにわたって。
ObjectDiffusionは、セマンティックおよび空間制御レイアウトにシームレスに適合する、多様で高品質の高忠実度の画像を合成する際の特徴的な機能を示しています。
定性的および定量的テストで評価されたObjectDiffusionは、さまざまなコンテキストにわたって閉鎖およびオープンセットの語彙設定で顕著な接地機能を示します。
定性的評価は、さまざまなサイズ、フォーム、および場所で複数の詳細なオブジェクトを生成するObjectDiffusionの能力を検証します。

要約(オリジナル)

Text-to-image (T2I) generative diffusion models have demonstrated outstanding performance in synthesizing diverse, high-quality visuals from text captions. Several layout-to-image models have been developed to control the generation process by utilizing a wide range of layouts, such as segmentation maps, edges, and human keypoints. In this work, we propose ObjectDiffusion, a model that conditions T2I diffusion models on semantic and spatial grounding information, enabling the precise rendering and placement of desired objects in specific locations defined by bounding boxes. To achieve this, we make substantial modifications to the network architecture introduced in ControlNet to integrate it with the grounding method proposed in GLIGEN. We fine-tune ObjectDiffusion on the COCO2017 training dataset and evaluate it on the COCO2017 validation dataset. Our model improves the precision and quality of controllable image generation, achieving an AP$_{\text{50}}$ of 46.6, an AR of 44.5, and an FID of 19.8, outperforming the current SOTA model trained on open-source datasets across all three metrics. ObjectDiffusion demonstrates a distinctive capability in synthesizing diverse, high-quality, high-fidelity images that seamlessly conform to the semantic and spatial control layout. Evaluated in qualitative and quantitative tests, ObjectDiffusion exhibits remarkable grounding capabilities in closed-set and open-set vocabulary settings across a wide variety of contexts. The qualitative assessment verifies the ability of ObjectDiffusion to generate multiple detailed objects in varying sizes, forms, and locations.

arxiv情報

著者 Ahmad Süleyman,Göksel Biricik
発行日 2025-02-10 18:54:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation はコメントを受け付けていません