Multi-Step Guided Diffusion for Image Restoration on Edge Devices: Toward Lightweight Perception in Embodied AI

要約

拡散モデルは、タスク固有の再訓練なしに逆問題を解決するための顕著な柔軟性を示しています。
ただし、マニホールド保存ガイド拡散(MPGD)などの既存のアプローチは、特に埋め込まれたまたは分散式設定で、復元忠実度と堅牢性を制限し、除去ステップごとに単一の勾配更新のみを適用します。
この作業では、各除去タイムステップ内に多段階の最適化戦略を導入し、画質、知覚精度、一般化を大幅に向上させます。
スーパー解像度とガウスの脱生の実験は、ステップあたりのグラデーション更新の数を増やすと、LPIPとPSNRが最小限のレイテンシーオーバーヘッドで改善することを示しています。
特に、劣化したイメージネットとUAVデータセットを使用して、ジェットソンオリンナノでこのアプローチを検証し、元々フェイスデータセットで訓練されたMPGDが自然および空中シーンに効果的に一般化することを示しています。
私たちの調査結果は、ドローンやモバイルロボットなどの具体化されたAIエージェントにおけるリアルタイムの視覚的認識のための軽量のプラグアンドプレイ修復モジュールとしてのMPGDの可能性を強調しています。

要約(オリジナル)

Diffusion models have shown remarkable flexibility for solving inverse problems without task-specific retraining. However, existing approaches such as Manifold Preserving Guided Diffusion (MPGD) apply only a single gradient update per denoising step, limiting restoration fidelity and robustness, especially in embedded or out-of-distribution settings. In this work, we introduce a multistep optimization strategy within each denoising timestep, significantly enhancing image quality, perceptual accuracy, and generalization. Our experiments on super-resolution and Gaussian deblurring demonstrate that increasing the number of gradient updates per step improves LPIPS and PSNR with minimal latency overhead. Notably, we validate this approach on a Jetson Orin Nano using degraded ImageNet and a UAV dataset, showing that MPGD, originally trained on face datasets, generalizes effectively to natural and aerial scenes. Our findings highlight MPGD’s potential as a lightweight, plug-and-play restoration module for real-time visual perception in embodied AI agents such as drones and mobile robots.

arxiv情報

著者 Aditya Chakravarty
発行日 2025-06-08 21:11:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク