Geometry Aligned Variational Transformer for Image-conditioned Layout Generation

要約

レイアウト生成は、物体定位と美的評価の両方の課題を兼ね備えたコンピュータビジョンにおける新しいタスクであり、広告、ポスター、スライドのデザインに広く利用されている。正確で快適なレイアウトは、レイアウト要素内の領域内関係と、レイアウト要素と画像間の領域間関係の両方を考慮する必要があります。しかし、従来の手法では、画像から得られる複雑な視覚情報を利用することなく、単に画像の内容に依存しないレイアウト生成に焦点を当てたものがほとんどである。そこで、本論文では、画像にテキストを付加することで意味的に一貫したレイアウトを実現する、画像条件付きレイアウト生成と呼ばれる新しいパラダイムを探求する。具体的には、画像中の様々なレイアウトを自己回帰的に生成する画像条件付き変分変換器(ICVT)を提案する。まず、レイアウト要素内の文脈関係をモデル化するためにセルフアテンションメカニズムを、条件付き画像の視覚情報を融合するためにクロスアテンションメカニズムを採用する。その後、それらを構成要素として、魅力的な多様性を示す条件付き変分オートエンコーダ(CVAE)を構築する。第二に、レイアウト要素領域と視覚領域のギャップを緩和するため、画像の幾何学的情報をレイアウト表現に整合させる幾何学整合モジュールを設計する。さらに、大規模な広告ポスターのレイアウトデザインデータセットを構築し、繊細なレイアウトと顕著性マップのアノテーションを付与することで、レイアウトデザインを行う。実験の結果、本モデルが画像の非侵入領域において適応的にレイアウトを生成し、調和のとれたレイアウトデザインを実現できることが示された。

要約(オリジナル)

Layout generation is a novel task in computer vision, which combines the challenges in both object localization and aesthetic appraisal, widely used in advertisements, posters, and slides design. An accurate and pleasant layout should consider both the intra-domain relationship within layout elements and the inter-domain relationship between layout elements and the image. However, most previous methods simply focus on image-content-agnostic layout generation, without leveraging the complex visual information from the image. To this end, we explore a novel paradigm entitled image-conditioned layout generation, which aims to add text overlays to an image in a semantically coherent manner. Specifically, we propose an Image-Conditioned Variational Transformer (ICVT) that autoregressively generates various layouts in an image. First, self-attention mechanism is adopted to model the contextual relationship within layout elements, while cross-attention mechanism is used to fuse the visual information of conditional images. Subsequently, we take them as building blocks of conditional variational autoencoder (CVAE), which demonstrates appealing diversity. Second, in order to alleviate the gap between layout elements domain and visual domain, we design a Geometry Alignment module, in which the geometric information of the image is aligned with the layout representation. In addition, we construct a large-scale advertisement poster layout designing dataset with delicate layout and saliency map annotations. Experimental results show that our model can adaptively generate layouts in the non-intrusive area of the image, resulting in a harmonious layout design.

arxiv情報

著者 Yunning Cao,Ye Ma,Min Zhou,Chuanbin Liu,Hongtao Xie,Tiezheng Ge,Yuning Jiang
発行日 2022-09-02 07:19:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク