RestoreAgent: Autonomous Image Restoration Agent via Multimodal Large Language Models

要約

モバイル デバイスでキャプチャされた自然画像には、ノイズ、ぼやけ、低照度などの複数の種類の劣化が発生することがよくあります。
従来の画像復元方法では、特定のタスク、アルゴリズム、実行シーケンスを手動で選択する必要があり、時間がかかり、最適とは言えない結果が得られる可能性があります。
オールインワン モデルは複数のタスクを処理できますが、通常は限られた範囲のみをサポートし、広範なデータ分布の適合により過度にスムーズで忠実度の低い結果が生成されることがよくあります。
これらの課題に対処するために、まず複数の劣化のあるイメージを復元するための新しいパイプラインを定義し、次にマルチモーダル大規模言語モデルを活用したインテリジェントなイメージ復元システムである RestoreAgent を導入します。
RestoreAgent は入力画像の劣化の種類と程度を自律的に評価し、(1) 適切な修復タスクの決定、(2) タスクシーケンスの最適化、(3) 最適なモデルの選択、(4) 修復の実行を通じて修復を実行します。
実験結果は、複雑な劣化を処理する際の RestoreAgent の優れたパフォーマンスが人間の専門家を超えていることを示しています。
さらに、システムのモジュール設計により、新しいタスクとモデルの迅速な統合が容易になり、さまざまなアプリケーションに対する柔軟性と拡張性が向上します。

要約(オリジナル)

Natural images captured by mobile devices often suffer from multiple types of degradation, such as noise, blur, and low light. Traditional image restoration methods require manual selection of specific tasks, algorithms, and execution sequences, which is time-consuming and may yield suboptimal results. All-in-one models, though capable of handling multiple tasks, typically support only a limited range and often produce overly smooth, low-fidelity outcomes due to their broad data distribution fitting. To address these challenges, we first define a new pipeline for restoring images with multiple degradations, and then introduce RestoreAgent, an intelligent image restoration system leveraging multimodal large language models. RestoreAgent autonomously assesses the type and extent of degradation in input images and performs restoration through (1) determining the appropriate restoration tasks, (2) optimizing the task sequence, (3) selecting the most suitable models, and (4) executing the restoration. Experimental results demonstrate the superior performance of RestoreAgent in handling complex degradation, surpassing human experts. Furthermore, the system modular design facilitates the fast integration of new tasks and models, enhancing its flexibility and scalability for various applications.

arxiv情報

著者 Haoyu Chen,Wenbo Li,Jinjin Gu,Jingjing Ren,Sixiang Chen,Tian Ye,Renjing Pei,Kaiwen Zhou,Fenglong Song,Lei Zhu
発行日 2024-07-25 13:29:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク