Block and Detail: Scaffolding Sketch-to-Image Generation

要約

アーティストの反復的な改良プロセスに合わせた、新しいスケッチから画像へのツールを紹介します。
このツールを使用すると、ユーザーはブロッキング ストロークをスケッチしてオブジェクトの配置と形状を大まかに表現し、詳細なストロークをスケッチして形状とシルエットを調整できます。
私たちは、反復プロセスの任意の時点でそのようなスケッチから高忠実度の画像を生成するための 2 パス アルゴリズムを開発します。
最初のパスでは、ControlNet を使用してすべてのストローク (ブロッキングとディテール) を厳密に追跡するイメージを生成し、2 番目のパスでは、ブロッキング ストロークの周囲の領域をリノイズすることでバリエーションを追加します。
また、ControlNet アーキテクチャのトレーニングに使用すると、ストロークを含まない領域を空のスペースではなく未指定の領域として解釈できるデータセット生成スキームも提示します。
この部分スケッチ対応 ControlNet が、少数のストロークのみを含む部分スケッチから一貫した要素を生成できることを示します。
私たちのアプローチによって生成された忠実度の高い画像は、ユーザーがオブジェクトの形状や比率を調整したり、構成に要素を追加したりするのに役立つ足場として機能します。
さまざまな例と評価比較を使用して、アプローチの有効性を実証します。
定量的に評価したユーザー フィードバックによると、初心者の視聴者は 84% のペアでベースラインの Scribble ControlNet よりも当社のアルゴリズムによる画像の品質を好み、81% のペアで当社の画像の歪みが少ないことがわかりました。

要約(オリジナル)

We introduce a novel sketch-to-image tool that aligns with the iterative refinement process of artists. Our tool lets users sketch blocking strokes to coarsely represent the placement and form of objects and detail strokes to refine their shape and silhouettes. We develop a two-pass algorithm for generating high-fidelity images from such sketches at any point in the iterative process. In the first pass we use a ControlNet to generate an image that strictly follows all the strokes (blocking and detail) and in the second pass we add variation by renoising regions surrounding blocking strokes. We also present a dataset generation scheme that, when used to train a ControlNet architecture, allows regions that do not contain strokes to be interpreted as not-yet-specified regions rather than empty space. We show that this partial-sketch-aware ControlNet can generate coherent elements from partial sketches that only contain a small number of strokes. The high-fidelity images produced by our approach serve as scaffolds that can help the user adjust the shape and proportions of objects or add additional elements to the composition. We demonstrate the effectiveness of our approach with a variety of examples and evaluative comparisons. Quantitatively, evaluative user feedback indicates that novice viewers prefer the quality of images from our algorithm over a baseline Scribble ControlNet for 84% of the pairs and found our images had less distortion in 81% of the pairs.

arxiv情報

著者 Vishnu Sarukkai,Lu Yuan,Mia Tang,Maneesh Agrawala,Kayvon Fatahalian
発行日 2024-10-25 17:35:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク