An Impartial Transformer for Story Visualization

要約

ストーリービジュアライゼーションは、計算機ビジョンの高度なタスクであり、逐次画像合成をターゲットとしている。本研究では、新しいアーキテクチャと学習アプローチを提案する。公平な変換器は、テキストに関連するもっともらしいシーンと、できるだけ少ない学習可能なパラメータを用いた連続的な一貫性の両方を実現する。この強化により、オブジェクトが隠蔽された「難しい」サンプルの合成も扱うことができ、過去のアプローチと比較して改善された評価指標を達成することができる。

要約(オリジナル)

Story Visualization is an advanced task of computed vision that targets sequential image synthesis, where the generated samples need to be realistic, faithful to their conditioning and sequentially consistent. Our work proposes a novel architectural and training approach: the Impartial Transformer achieves both text-relevant plausible scenes and sequential consistency utilizing as few trainable parameters as possible. This enhancement is even able to handle synthesis of ‘hard’ samples with occluded objects, achieving improved evaluation metrics comparing to past approaches.

arxiv情報

著者 Nikolaos Tsakas,Maria Lymperaiou,Giorgos Filandrianos,Giorgos Stamou
発行日 2023-01-09 18:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク