DoodleFormer: Creative Sketch Drawing with Transformers

要約

創造的なスケッチや落書きは表現活動であり、日常の視覚的オブジェクトの想像力豊かで以前には見られなかった描写が描かれます.
創造的なスケッチ画像の生成は、挑戦的なビジョンの問題であり、タスクは、視覚世界のオブジェクトの目に見えない構成を持つ、多様でありながら現実的な創造的なスケッチを生成することです。
ここでは、創造的なスケッチ生成の問題を粗いスケッチ構成の作成とそれに続くスケッチへの細かい詳細の組み込みに分解する、新しい粗いものから細かいものへの 2 段階フレームワーク DoodleFormer を提案します。
さまざまな身体部位間の局所的な静的構造関係だけでなく、グローバルな動的構造関係も効果的にキャプチャする、グラフ対応トランス エンコーダーを導入します。
生成されたクリエイティブ スケッチの多様性を確保するために、描画される各スケッチ ボディ パーツのバリエーションを明示的にモデル化する確率的粗スケッチ デコーダーを導入します。
実験は、Creative Birds と Creative Creatures の 2 つのクリエイティブ スケッチ データセットで実行されます。
私たちの質的、量的、および人間ベースの評価は、DoodleFormer が両方のデータセットで最先端技術を凌駕し、現実的で多様な創造的なスケッチを生み出すことを示しています。
Creative Creatures では、DoodleFormer は、最先端のフレシェ開始距離 (FID) で 25 の絶対ゲインを達成しています。
また、クリエイティブなスケッチの生成とスケッチの完成に関連するテキストのアプリケーションに対する DoodleFormer の有効性を示します。

要約(オリジナル)

Creative sketching or doodling is an expressive activity, where imaginative and previously unseen depictions of everyday visual objects are drawn. Creative sketch image generation is a challenging vision problem, where the task is to generate diverse, yet realistic creative sketches possessing the unseen composition of the visual-world objects. Here, we propose a novel coarse-to-fine two-stage framework, DoodleFormer, that decomposes the creative sketch generation problem into the creation of coarse sketch composition followed by the incorporation of fine-details in the sketch. We introduce graph-aware transformer encoders that effectively capture global dynamic as well as local static structural relations among different body parts. To ensure diversity of the generated creative sketches, we introduce a probabilistic coarse sketch decoder that explicitly models the variations of each sketch body part to be drawn. Experiments are performed on two creative sketch datasets: Creative Birds and Creative Creatures. Our qualitative, quantitative and human-based evaluations show that DoodleFormer outperforms the state-of-the-art on both datasets, yielding realistic and diverse creative sketches. On Creative Creatures, DoodleFormer achieves an absolute gain of 25 in terms of Fr`echet inception distance (FID) over the state-of-the-art. We also demonstrate the effectiveness of DoodleFormer for related applications of text to creative sketch generation and sketch completion.

arxiv情報

著者 Ankan Kumar Bhunia,Salman Khan,Hisham Cholakkal,Rao Muhammad Anwer,Fahad Shahbaz Khan,Jorma Laaksonen,Michael Felsberg
発行日 2022-09-15 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク