要約
この作品では、参照画像やテキスト説明などの指定されたプロンプトに従って顔画像を 3D を意識した方法で効率的に編集できる実用的なツールである 3DPE を紹介します。
この目的を達成するために、3D ポートレート ジェネレーターとテキストから画像へのモデルから軽量モジュールが抽出され、それぞれ顔の形状に関する事前知識とオープンな語彙編集機能を提供します。
このような設計は、既存のアプローチに比べて 2 つの魅力的な利点をもたらします。
まず、当社のシステムはフィードフォワード ネットワークを使用してリアルタイム編集を実現し (つまり、画像あたり約 0.04 秒)、2 番目の競合他社よりも 100 倍以上高速です。
第二に、強力な事前分布のおかげで、私たちのモジュールは編集関連のバリエーションの学習に焦点を当てることができ、トレーニング段階でさまざまなタイプの編集を同時に処理し、トレーニング中にユーザーが指定した新しいタイプの編集への迅速な適応をさらにサポートできるようになりました。
推論 (例: ケースごとに最大 5 分の微調整)。
コード、モデル、インターフェイスは、将来の研究を促進するために公開される予定です。
要約(オリジナル)
This work presents 3DPE, a practical tool that can efficiently edit a face image following given prompts, like reference images or text descriptions, in the 3D-aware manner. To this end, a lightweight module is distilled from a 3D portrait generator and a text-to-image model, which provide prior knowledge of face geometry and open-vocabulary editing capability, respectively. Such a design brings two compelling advantages over existing approaches. First, our system achieves real-time editing with a feedforward network (i.e., ~0.04s per image), over 100x faster than the second competitor. Second, thanks to the powerful priors, our module could focus on the learning of editing-related variations, such that it manages to handle various types of editing simultaneously in the training phase and further supports fast adaptation to user-specified novel types of editing during inference (e.g., with ~5min fine-tuning per case). The code, the model, and the interface will be made publicly available to facilitate future research.
arxiv情報
著者 | Qingyan Bai,Yinghao Xu,Zifan Shi,Hao Ouyang,Qiuyu Wang,Ceyuan Yang,Xuan Wang,Gordon Wetzstein,Yujun Shen,Qifeng Chen |
発行日 | 2024-02-21 18:36:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google