要約
現在のテキストから画像への編集モデルは、単一の命令を使用して複数の属性をスムーズに操作する際に課題に直面することがよくあります。
言語モデルで利用されている思考連鎖プロンプト技術からインスピレーションを得て、私たちは、一連の命令を使用した段階的な編集を通じてこれらのモデルの機能を強化する、指示連鎖編集 (CoIE) として知られる革新的な概念を提示します。
指示の。
特に、顔操作のコンテキストでは、GPT-4 などの事前トレーニング済み大規模言語モデル (LLM) のコンテキスト学習能力を活用して、目的に合わせて設計された 1-
ショットテンプレート。
各編集ステップの精度をさらに向上させるために、独自に構築した命令ガイド付き顔編集データセット Instruct-CelebA を使用して編集モデルの微調整を行います。
さらに、編集性や画質劣化による悪影響を軽減する超解像モジュールを搭載しています。
さまざまな困難なケースにわたる実験結果により、一連の命令編集を使用した複数属性の顔画像操作が大幅に向上することが確認されました。
これは、CLIPSim および Coverage メトリクスによって測定される編集成功率の向上 (それぞれ 17.86% および 85.45% 向上)、および Preserve L1 メトリクスおよび Quality メトリクスによって示される制御性の向上 (それぞれ 11.58% および 4.93% 向上) から明らかです。
要約(オリジナル)
Current text-to-image editing models often encounter challenges with smoothly manipulating multiple attributes using a single instruction. Taking inspiration from the Chain-of-Thought prompting technique utilized in language models, we present an innovative concept known as Chain-of-Instruct Editing (CoIE), which enhances the capabilities of these models through step-by-step editing using a series of instructions. In particular, in the context of face manipulation, we leverage the contextual learning abilities of a pretrained Large Language Model (LLM), such as GPT-4, to generate a sequence of instructions from the original input, utilizing a purpose-designed 1-shot template. To further improve the precision of each editing step, we conduct fine-tuning on the editing models using our self-constructed instruction-guided face editing dataset, Instruct-CelebA. And additionally, we incorporate a super-resolution module to mitigate the adverse effects of editability and quality degradation. Experimental results across various challenging cases confirm the significant boost in multi-attribute facial image manipulation using chain-of-instruct editing. This is evident in enhanced editing success rates, measured by CLIPSim and Coverage metrics, improved by 17.86% and 85.45% respectively, and heightened controllability indicated by Preserve L1 and Quality metrics, improved by 11.58% and 4.93% respectively.
arxiv情報
著者 | Zhenduo Zhang,Bo-Wen Zhang,Guang Liu |
発行日 | 2023-12-20 08:53:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google