VoCo-LLaMA: Towards Vision Compression with Large Language Models

要約

視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて目覚ましい成功を収めているが、高解像度の画像入力や動画を処理する際に、限られたコンテキストウィンドウと高い計算コストがネックとなることが多い。ビジョン圧縮は、ビジョントークンの数を減らすことでこの問題を軽減することができる。これまでのアプローチでは、視覚トークンを外部モジュールで圧縮し、LLMに圧縮されたものを理解させるため、視覚情報が失われる。しかし、LLMの視覚トークン理解パラダイムは、圧縮学習プロセスでは十分に活用されていない。我々はVoCo-LLaMAを提案する。VoCo-LLaMAは、LLMを用いて視覚トークンを圧縮する最初のアプローチである。ビジョン命令チューニング段階でビジョン圧縮トークンを導入し、注意抽出を活用することで、本手法はLLMがビジョン・トークンをどのように理解するかをVoCoトークンの処理に抽出する。VoCo-LLaMAは効果的な視覚圧縮を促進し、推論段階での計算効率を向上させる。具体的には、本手法は576$$倍の圧縮率で最小の性能損失を達成し、最大94.8$%$少ないFLOPsと69.6$%$の推論時間の加速をもたらす。さらに、ビデオフレームの時系列圧縮トークンシーケンスを用いた継続的な学習により、VoCo-LLaMAは、時間的相関を理解する能力を実証し、一般的なビデオ質問応答ベンチマークにおいて、従来の手法を凌駕した。我々のアプローチは、VLMのコンテクスト・ウィンドウの可能性を最大限に引き出し、よりスケーラブルなマルチモーダル・アプリケーションを可能にする有望な方法を提示している。プロジェクトページと関連コードは、https://yxxxb.github.io/VoCo-LLaMA-page/。

要約(オリジナル)

Vision-Language Models (VLMs) have achieved remarkable success in various multi-modal tasks, but they are often bottlenecked by the limited context window and high computational cost of processing high-resolution image inputs and videos. Vision compression can alleviate this problem by reducing the vision token count. Previous approaches compress vision tokens with external modules and force LLMs to understand the compressed ones, leading to visual information loss. However, the LLMs’ understanding paradigm of vision tokens is not fully utilised in the compression learning process. We propose VoCo-LLaMA, the first approach to compress vision tokens using LLMs. By introducing Vision Compression tokens during the vision instruction tuning phase and leveraging attention distillation, our method distill how LLMs comprehend vision tokens into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision compression and improves the computational efficiency during the inference stage. Specifically, our method achieves minimal performance loss with a compression ratio of 576$\times$, resulting in up to 94.8$\%$ fewer FLOPs and 69.6$\%$ acceleration in inference time. Furthermore, through continuous training using time-series compressed token sequences of video frames, VoCo-LLaMA demonstrates the ability to understand temporal correlations, outperforming previous methods on popular video question-answering benchmarks. Our approach presents a promising way to unlock the full potential of VLMs’ contextual window, enabling more scalable multi-modal applications. The project page, along with the associated code, can be accessed via https://yxxxb.github.io/VoCo-LLaMA-page/.

arxiv情報

著者 Xubing Ye,Yukang Gan,Xiaoke Huang,Yixiao Ge,Yansong Tang
発行日 2025-03-03 09:05:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | VoCo-LLaMA: Towards Vision Compression with Large Language Models はコメントを受け付けていません

HiBug2: Efficient and Interpretable Error Slice Discovery for Comprehensive Model Debugging

要約

コンピュータビジョンにおけるディープラーニングモデルの大きな成功にもかかわらず、エラースライスと呼ばれる特定のデータサブセットで体系的な失敗を示すことが多い。このようなエラースライスを特定し緩和することは、実世界のシナリオにおけるモデルのロバスト性と信頼性を高める上で極めて重要である。本論文では、エラースライスの発見とモデル修復のための自動化フレームワークであるHiBug2を紹介する。HiBug2はまず、解釈可能で構造化されたプロセスにより、エラーが発生しやすいインスタンスを強調するタスク固有の視覚的属性を生成する。次に、効率的なスライス列挙アルゴリズムを採用し、スライス探索中に発生する組み合わせの課題を克服して、エラースライスを系統的に特定する。さらに、HiBug2は、検証セットを超えてエラースライスを予測することで機能を拡張し、先行アプローチの重要な制限に対処している。画像分類、姿勢推定、物体検出を含む複数の領域にわたる広範な実験により、HiBug2は識別されたエラースライスの一貫性と精度を向上させるだけでなく、モデルの修復能力を大幅に向上させることが示された。

要約(オリジナル)

Despite the significant success of deep learning models in computer vision, they often exhibit systematic failures on specific data subsets, known as error slices. Identifying and mitigating these error slices is crucial to enhancing model robustness and reliability in real-world scenarios. In this paper, we introduce HiBug2, an automated framework for error slice discovery and model repair. HiBug2 first generates task-specific visual attributes to highlight instances prone to errors through an interpretable and structured process. It then employs an efficient slice enumeration algorithm to systematically identify error slices, overcoming the combinatorial challenges that arise during slice exploration. Additionally, HiBug2 extends its capabilities by predicting error slices beyond the validation set, addressing a key limitation of prior approaches. Extensive experiments across multiple domains, including image classification, pose estimation, and object detection – show that HiBug2 not only improves the coherence and precision of identified error slices but also significantly enhances the model repair capabilities.

arxiv情報

著者 Muxi Chen,Chenchen Zhao,Qiang Xu
発行日 2025-03-03 09:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | HiBug2: Efficient and Interpretable Error Slice Discovery for Comprehensive Model Debugging はコメントを受け付けていません

Saliency-Bench: A Comprehensive Benchmark for Evaluating Visual Explanations

要約

説明可能なAI(XAI)は、特に画像分類タスクにおいて、顕著性マップによって視覚化された説明を通じて、深層学習モデルの意思決定プロセスに対する洞察を提供することで大きな注目を集めている。その成功にもかかわらず、注釈付きデータセットや標準化された評価パイプラインの不足による課題が残っている。本論文では、複数のデータセットにおいて、顕著性手法によって生成された視覚的説明を評価するために設計された新しいベンチマークスイートであるSaliency-Benchを紹介する。我々は、シーン分類、がん診断、物体分類、行動分類などの多様なタスクをカバーする8つのデータセットと、それに対応するグランドトゥルースの説明をキュレーション、構築、アノテーションした。このベンチマークには、視覚的説明の忠実性と整合性を評価するための標準化された統一的な評価パイプラインが含まれており、全体的な視覚的説明の性能評価を提供する。これらの8つのデータセットを、異なる画像分類器アーキテクチャ上で広く使用されている顕著性手法とベンチマークし、説明の品質を評価する。さらに、データアクセス、データロードから結果評価までの評価パイプラインを自動化するために、使いやすいAPIを開発した。ベンチマークは我々のウェブサイトhttps://xaidataset.github.io。

要約(オリジナル)

Explainable AI (XAI) has gained significant attention for providing insights into the decision-making processes of deep learning models, particularly for image classification tasks through visual explanations visualized by saliency maps. Despite their success, challenges remain due to the lack of annotated datasets and standardized evaluation pipelines. In this paper, we introduce Saliency-Bench, a novel benchmark suite designed to evaluate visual explanations generated by saliency methods across multiple datasets. We curated, constructed, and annotated eight datasets, each covering diverse tasks such as scene classification, cancer diagnosis, object classification, and action classification, with corresponding ground-truth explanations. The benchmark includes a standardized and unified evaluation pipeline for assessing faithfulness and alignment of the visual explanation, providing a holistic visual explanation performance assessment. We benchmark these eight datasets with widely used saliency methods on different image classifier architectures to evaluate explanation quality. Additionally, we developed an easy-to-use API for automating the evaluation pipeline, from data accessing, and data loading, to result evaluation. The benchmark is available via our website: https://xaidataset.github.io.

arxiv情報

著者 Yifei Zhang,James Song,Siyi Gu,Tianxu Jiang,Bo Pan,Guangji Bai,Liang Zhao
発行日 2025-03-03 09:26:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Saliency-Bench: A Comprehensive Benchmark for Evaluating Visual Explanations はコメントを受け付けていません

EXACFS — A CIL Method to mitigate Catastrophic Forgetting

要約

ディープ・ニューラル・ネットワーク(DNNS)は、静的なデータセットからの学習には優れているが、データが逐次届くような継続的な学習には苦労する。壊滅的忘却(以前に学習した知識を忘れてしまう現象)は主要な課題である。本稿では、クラス漸進学習(CIL)設定においてこの問題を軽減するために、EXponentially Averaged Class-wise Feature Significance(EXACFS)を導入する。損失勾配を用いて学習された各クラスに対するモデル特徴の有意性を推定し、漸進的なタスクを通して徐々に有意性をエージングし、蒸留損失によって有意な特徴を保存することで、EXACFSは古い知識の記憶(安定性)と新しい知識の学習(可塑性)のバランスを効果的にとる。CIFAR-100とImageNet-100を用いた広範な実験により、EXACFSが可塑性を獲得しながら安定性を保つという優れた性能を持つことが実証された。

要約(オリジナル)

Deep neural networks (DNNS) excel at learning from static datasets but struggle with continual learning, where data arrives sequentially. Catastrophic forgetting, the phenomenon of forgetting previously learned knowledge, is a primary challenge. This paper introduces EXponentially Averaged Class-wise Feature Significance (EXACFS) to mitigate this issue in the class incremental learning (CIL) setting. By estimating the significance of model features for each learned class using loss gradients, gradually aging the significance through the incremental tasks and preserving the significant features through a distillation loss, EXACFS effectively balances remembering old knowledge (stability) and learning new knowledge (plasticity). Extensive experiments on CIFAR-100 and ImageNet-100 demonstrate EXACFS’s superior performance in preserving stability while acquiring plasticity.

arxiv情報

著者 S Balasubramanian,M Sai Subramaniam,Sai Sriram Talasu,Yedu Krishna P,Manepalli Pranav Phanindra Sai,Ravi Mukkamala,Darshan Gera
発行日 2025-03-03 09:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | EXACFS — A CIL Method to mitigate Catastrophic Forgetting はコメントを受け付けていません

Improving Representation of High-frequency Components for Medical Visual Foundation Models

要約

基礎モデルは、多様な下流タスクにまたがる優れた一般化可能性から、近年大きな注目を集めている。しかし、これらのモデルは、高周波成分や細かな細部を表現するには大きな限界があることが示されている。多くの医用画像処理タスクでは、本質的に複雑な解剖学的構造、サブビジュアル特徴、複雑な境界が関係するため、このような情報を正確に表現することが極めて重要である。その結果、一般的な基礎モデルでは表現に限界があるため、これらのタスクではパフォーマンスが著しく低下したり、失敗したりすることさえある。このような課題に対処するために、我々は、Frepa(Frequency-advanced Representation Autoencoder)と名付けた新しい事前学習戦略を提案する。敵対的学習と組み合わせた高周波数マスキングと低周波数の摂動により、Frepaはエンコーダが画像埋め込みにおいて高周波数成分を効果的に表現し保存することを促す。さらに、革新的なヒストグラム均等化画像マスキング戦略を導入し、ViTだけでなく、Swin Transformerや畳み込みネットワークなどの他のアーキテクチャにマスクオートエンコーダのアプローチを拡張する。我々は、9つの医療モダリティにわたってFrepaを開発し、2D画像と3Dボリュームデータの両方について、32のダウンストリームタスクで検証した。微調整無しで、Frepaは他の自己教師付き事前学習法を凌駕し、場合によってはタスク固有の学習済みモデルをも凌駕する。この改善は、網膜血管のセグメンテーションでDSCが最大+15%、肺結節の検出でIoUが+7%向上するなど、細かいディテールを含むタスクで特に顕著である。さらなる実験により、Frepaが埋め込みにおいて優れた高周波数表現と保存を可能にすることが定量的に明らかになり、より一般的で普遍的な医用画像基盤モデルの開発への可能性が強調された。

要約(オリジナル)

Foundation models have recently attracted significant attention for their impressive generalizability across diverse downstream tasks. However, these models are demonstrated to exhibit great limitations in representing high-frequency components and fine-grained details. In many medical imaging tasks, the precise representation of such information is crucial due to the inherently intricate anatomical structures, sub-visual features, and complex boundaries involved. Consequently, the limited representation of prevalent foundation models can result in significant performance degradation or even failure in these tasks. To address these challenges, we propose a novel pretraining strategy, named Frequency-advanced Representation Autoencoder (Frepa). Through high-frequency masking and low-frequency perturbation combined with adversarial learning, Frepa encourages the encoder to effectively represent and preserve high-frequency components in the image embeddings. Additionally, we introduce an innovative histogram-equalized image masking strategy, extending the Masked Autoencoder approach beyond ViT to other architectures such as Swin Transformer and convolutional networks. We develop Frepa across nine medical modalities and validate it on 32 downstream tasks for both 2D images and 3D volume data. Without fine-tuning, Frepa can outperform other self-supervised pretraining methods and, in some cases, even surpasses task-specific trained models. This improvement is particularly significant for tasks involving fine-grained details, such as achieving up to a +15% increase in DSC for retina vessel segmentation and a +7% increase in IoU for lung nodule detection. Further experiments quantitatively reveal that Frepa enables superior high-frequency representations and preservation in the embeddings, underscoring its potential for developing more generalized and universal medical image foundation models.

arxiv情報

著者 Yuetan Chu,Yilan Zhang,Zhongyi Han,Changchun Yang,Longxi Zhou,Gongning Luo,Chao Huang,Xin Gao
発行日 2025-03-03 09:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, eess.IV | Improving Representation of High-frequency Components for Medical Visual Foundation Models はコメントを受け付けていません

Slowing Down Forgetting in Continual Learning

要約

継続学習(CL)における一般的な課題は、新しいタスクを追加学習した後に古いタスクのパフォーマンスが低下する壊滅的忘却である。本論文では、CLにおける忘却を遅らせるためのReCLと呼ばれる新しいフレームワークを提案する。我々のフレームワークは、勾配ベースのニューラルネットワークがマージン最大化点に収束する暗黙のバイアスを利用する。このような収束点により、過去のタスクから古いデータを再構築し、それを現在の学習データと組み合わせることができる。我々のフレームワークは柔軟であり、既存の最先端のCL手法の上に適用することができる。さらに、2つの困難なCLシナリオ(クラスインクリメンタル学習とドメインインクリメンタル学習)、異なるデータセット(MNIST、CIFAR10、TinyImagenet)、異なるネットワークアーキテクチャを含む、大規模な一連の実験を通して、我々のフレームワークによる性能向上を実証する。全ての実験において、我々はReCLによる大きな性能向上を発見した。我々の知る限り、我々のフレームワークは、CLにおけるモデルを独自のメモリバッファとして活用することにより、壊滅的な忘却に対処する最初のものである。

要約(オリジナル)

A common challenge in continual learning (CL) is catastrophic forgetting, where the performance on old tasks drops after new, additional tasks are learned. In this paper, we propose a novel framework called ReCL to slow down forgetting in CL. Our framework exploits an implicit bias of gradient-based neural networks due to which these converge to margin maximization points. Such convergence points allow us to reconstruct old data from previous tasks, which we then combine with the current training data. Our framework is flexible and can be applied on top of existing, state-of-the-art CL methods. We further demonstrate the performance gain from our framework across a large series of experiments, including two challenging CL scenarios (class incremental and domain incremental learning), different datasets (MNIST, CIFAR10, TinyImagenet), and different network architectures. Across all experiments, we find large performance gains through ReCL. To the best of our knowledge, our framework is the first to address catastrophic forgetting by leveraging models in CL as their own memory buffers.

arxiv情報

著者 Pascal Janetzky,Tobias Schlagenhauf,Stefan Feuerriegel
発行日 2025-03-03 10:22:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | Slowing Down Forgetting in Continual Learning はコメントを受け付けていません

TRACE: Temporal Grounding Video LLM via Causal Event Modeling

要約

ビデオ時間接地(VTG)はビデオ理解モデルにとって重要な能力であり、ビデオ閲覧や編集などの下流タスクにおいて重要な役割を果たす。様々なタスクを同時に効果的に処理し、ゼロショット予測を可能にするために、VTGタスクにビデオLLMを採用する傾向が高まっている。しかし、現在の動画LLMベースの手法は、自然言語生成にのみ依存しており、動画に内在する明確な構造をモデル化する能力がないため、VTGタスクに取り組む際の有効性が制限されている。この問題に対処するため、本稿ではまず、動画LLM出力をイベントのシーケンスとして表現し、以前のイベント、動画入力、およびテクスチャ指示を用いて現在のイベントを予測する、因果イベントモデリングフレームワークを正式に導入する。各イベントは、タイムスタンプ、顕著なスコア、テキストキャプションの3つの要素から構成される。次に、因果的イベントモデリングのフレームワークを効果的に実装するために、TRACEと呼ばれる新しいタスクインターリーブ型ビデオLLMを提案する。TRACEはビジュアルフレーム、タイムスタンプ、サリエントスコア、テキストを異なるタスクとして処理し、それぞれに様々なエンコーダとデコードヘッドを用いる。タスクトークンは因果イベントモデリングフレームワークの定式化に従ってインターリーブシーケンスに配置される。様々なVTGタスクとデータセットを用いた広範な実験により、TRACEが最先端のビデオLLMと比較して優れた性能を持つことが実証された。我々のモデルとコードはhttps://github.com/gyxxyg/TRACE。

要約(オリジナル)

Video Temporal Grounding (VTG) is a crucial capability for video understanding models and plays a vital role in downstream tasks such as video browsing and editing. To effectively handle various tasks simultaneously and enable zero-shot prediction, there is a growing trend in employing video LLMs for VTG tasks. However, current video LLM-based methods rely exclusively on natural language generation, lacking the ability to model the clear structure inherent in videos, which restricts their effectiveness in tackling VTG tasks. To address this issue, this paper first formally introduces causal event modeling framework, which represents video LLM outputs as sequences of events, and predict the current event using previous events, video inputs, and textural instructions. Each event consists of three components: timestamps, salient scores, and textual captions. We then propose a novel task-interleaved video LLM called TRACE to effectively implement the causal event modeling framework in practice. The TRACE process visual frames, timestamps, salient scores, and text as distinct tasks, employing various encoders and decoding heads for each. Task tokens are arranged in an interleaved sequence according to the causal event modeling framework’s formulation. Extensive experiments on various VTG tasks and datasets demonstrate the superior performance of TRACE compared to state-of-the-art video LLMs. Our model and code are available at https://github.com/gyxxyg/TRACE.

arxiv情報

著者 Yongxin Guo,Jingyu Liu,Mingda Li,Qingbin Liu,Xi Chen,Xiaoying Tang
発行日 2025-03-03 10:28:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | TRACE: Temporal Grounding Video LLM via Causal Event Modeling はコメントを受け付けていません

Towards Training One-Step Diffusion Models Without Distillation

要約

ワンステップ生成モデルにおける最近の進歩は、通常2段階のプロセスに従っている:まず教師拡散モデルを学習し、次にそれをワンステップの生徒モデルに蒸留する。この蒸留プロセスは従来、蒸留損失を計算するための教師モデルのスコア関数と、生徒の初期化のための重みの両方に依存していた。本論文では、この蒸留プロセスなしに、1ステップ生成モデルを直接学習できるかどうかを探索する。まず、教師のスコア関数は必須ではないことを示し、スコア推定に頼らずに競争力のある結果を得る蒸留法のファミリーを提案する。次に、教師重みからの初期化が学習の成功に不可欠であることを示す。驚くべきことに、この利点は“入出力”マッピングの改善によるものではなく、むしろ学習された特徴表現によるものであり、これが蒸留の質を支配していることを発見した。我々の発見は、ワンステップモデル学習における初期化の役割と、それが蒸留品質に与える影響についての理解を深めるものである。

要約(オリジナル)

Recent advances in one-step generative models typically follow a two-stage process: first training a teacher diffusion model and then distilling it into a one-step student model. This distillation process traditionally relies on both the teacher model’s score function to compute the distillation loss and its weights for student initialization. In this paper, we explore whether one-step generative models can be trained directly without this distillation process. First, we show that the teacher’s score function is not essential and propose a family of distillation methods that achieve competitive results without relying on score estimation. Next, we demonstrate that initialization from teacher weights is indispensable in successful training. Surprisingly, we find that this benefit is not due to improved “input-output’ mapping but rather the learned feature representations, which dominate distillation quality. Our findings provide a better understanding of the role of initialization in one-step model training and its impact on distillation quality.

arxiv情報

著者 Mingtian Zhang,Jiajun He,Wenlin Chen,Zijing Ou,José Miguel Hernández-Lobato,Bernhard Schölkopf,David Barber
発行日 2025-03-03 10:38:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Towards Training One-Step Diffusion Models Without Distillation はコメントを受け付けていません

Meta Curvature-Aware Minimization for Domain Generalization

要約

ドメイン汎化(DG)は、ソースドメインで学習されたモデルが、未知のドメインに効果的に汎化する能力を強化することを目的としている。近年、シャープネスを考慮した最小化(SAM)は、より汎化されたモデルを得るために損失ランドスケープのシャープネスを低減することで、この分野で有望視されている。しかし、SAMとその変種は、モデルを平坦な最小値へ導くことに失敗することがあり、その学習過程には限界があるため、モデルの汎化のさらなる改善の妨げとなっている。本論文ではまず、モデルが平坦な極小値に収束するように促すことを目的とした、改良されたモデル学習プロセスを提案する。これを達成するために、モデルが収束から遠いときには最小限の効果しか持たないが、モデルが局所最小に近づくにつれて、最小の曲率を示すのに影響力を増す曲率メトリックを設計する。次に、メタ曲率考慮最小化(MeCAM)と呼ばれる、局所極小値付近の曲率を最小化する新しいアルゴリズムをこのメトリックから導出する。具体的には、MeCAMの最適化目的は、通常の学習損失、SAMの代理ギャップ、メタ学習の代理ギャップを同時に最小化する。MeCAMの汎化誤差と収束率に関する理論的分析を提供し、PACS、VLCS、OfficeHome、TerraIncognita、DomainNetの5つのベンチマークDGデータセットを用いた広範な実験を通じて、既存のDG手法に対する優位性を実証する。コードはGitHubで公開される。

要約(オリジナル)

Domain generalization (DG) aims to enhance the ability of models trained on source domains to generalize effectively to unseen domains. Recently, Sharpness-Aware Minimization (SAM) has shown promise in this area by reducing the sharpness of the loss landscape to obtain more generalized models. However, SAM and its variants sometimes fail to guide the model toward a flat minimum, and their training processes exhibit limitations, hindering further improvements in model generalization. In this paper, we first propose an improved model training process aimed at encouraging the model to converge to a flat minima. To achieve this, we design a curvature metric that has a minimal effect when the model is far from convergence but becomes increasingly influential in indicating the curvature of the minima as the model approaches a local minimum. Then we derive a novel algorithm from this metric, called Meta Curvature-Aware Minimization (MeCAM), to minimize the curvature around the local minima. Specifically, the optimization objective of MeCAM simultaneously minimizes the regular training loss, the surrogate gap of SAM, and the surrogate gap of meta-learning. We provide theoretical analysis on MeCAM’s generalization error and convergence rate, and demonstrate its superiority over existing DG methods through extensive experiments on five benchmark DG datasets, including PACS, VLCS, OfficeHome, TerraIncognita, and DomainNet. Code will be available on GitHub.

arxiv情報

著者 Ziyang Chen,Yiwen Ye,Feilong Tang,Yongsheng Pan,Yong Xia
発行日 2025-03-03 10:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Meta Curvature-Aware Minimization for Domain Generalization はコメントを受け付けていません

PnP-Flow: Plug-and-Play Image Restoration with Flow Matching

要約

本稿では、画像逆問題を解くためのアルゴリズムであるプラグアンドプレイ(PnP)フローマッチングを紹介する。PnP法は、最適化スキームに統合することで、事前に訓練されたノイズ除去器(多くの場合、ディープニューラルネットワーク)の強みを活用する。PnP法は、画像処理における様々な逆問題で最先端の性能を達成する一方で、インペインティングのような生成的なタスクでは固有の限界に直面する。一方、フローマッチングのような生成モデルは、画像サンプリングの境界を押し広げたが、画像復元に効率的に利用するための明確な方法を欠いている。我々は、事前に訓練されたFMモデルを用いて時間依存のノイズ除去器を定義することで、PnPフレームワークとフローマッチング(FM)を組み合わせることを提案する。我々のアルゴリズムは、データ忠実度項に対する勾配降下ステップ、学習されたFMパスへの再投影、そしてノイズ除去を交互に行う。特筆すべきは、ODEやトレース計算によるバックプロパゲーションを回避するため、我々の手法は計算効率が高く、メモリフレンドリーであることである。我々は、ノイズ除去、超解像、デブラーリング、およびインペインティングタスクにおける性能を評価し、既存のPnPアルゴリズムやフローマッチングに基づく最先端の手法と比較して、優れた結果を実証する。

要約(オリジナル)

In this paper, we introduce Plug-and-Play (PnP) Flow Matching, an algorithm for solving imaging inverse problems. PnP methods leverage the strength of pre-trained denoisers, often deep neural networks, by integrating them in optimization schemes. While they achieve state-of-the-art performance on various inverse problems in imaging, PnP approaches face inherent limitations on more generative tasks like inpainting. On the other hand, generative models such as Flow Matching pushed the boundary in image sampling yet lack a clear method for efficient use in image restoration. We propose to combine the PnP framework with Flow Matching (FM) by defining a time-dependent denoiser using a pre-trained FM model. Our algorithm alternates between gradient descent steps on the data-fidelity term, reprojections onto the learned FM path, and denoising. Notably, our method is computationally efficient and memory-friendly, as it avoids backpropagation through ODEs and trace computations. We evaluate its performance on denoising, super-resolution, deblurring, and inpainting tasks, demonstrating superior results compared to existing PnP algorithms and Flow Matching based state-of-the-art methods.

arxiv情報

著者 Ségolène Martin,Anne Gagneux,Paul Hagemann,Gabriele Steidl
発行日 2025-03-03 10:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | PnP-Flow: Plug-and-Play Image Restoration with Flow Matching はコメントを受け付けていません