Hyper-parameter tuning for text guided image editing

要約

テスト時の微調整テキストガイド付き画像編集手法である Forgedit は、入力画像自体とターゲット テキスト プロンプトのみが与えられた場合に、一般的で複雑な画像編集の問題に取り組むことができます。
微調整段階では、指定された画像ごとに毎回同じ一連の微調整ハイパーパラメータを使用し、Forgedit は入力画像を 30 秒で記憶して理解します。
編集段階では、Forgedit のワークフローは複雑に見えるかもしれません。
しかし、実際には、Forgedit の編集プロセスは以前の SOTA Imagic よりも複雑ではなく、Imagic のオーバーフィッティングの問題を完全に解決しています。
このホワイトペーパーでは、Forgedit 編集段階のワークフローを例を挙げて詳しく説明します。
理想的な編集結果を得るためにハイパーパラメータを効率的に調整する方法を示します。

要約(オリジナル)

The test-time finetuning text-guided image editing method, Forgedit, is capable of tackling general and complex image editing problems given only the input image itself and the target text prompt. During finetuning stage, using the same set of finetuning hyper-paramters every time for every given image, Forgedit remembers and understands the input image in 30 seconds. During editing stage, the workflow of Forgedit might seem complicated. However, in fact, the editing process of Forgedit is not more complex than previous SOTA Imagic, yet completely solves the overfitting problem of Imagic. In this paper, we will elaborate the workflow of Forgedit editing stage with examples. We will show how to tune the hyper-parameters in an efficient way to obtain ideal editing results.

arxiv情報

著者 Shiwen Zhang
発行日 2024-07-31 15:50:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク