ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions

要約

近年のText-to-Image合成の進歩は、説明的なキャプションを持つデータセットに対して生成されるサンプルの品質を向上させることに重点を置いている。しかし、ニュースデータのようなドメインに存在する実世界の画像とキャプションのペアは、単純で直接的に説明的なキャプションを使用していない。キャプションには、画像の内容とその背景にある文脈の手がかりの両方に関する情報が含まれているため、キャプションは抽象的なものとなってしまうのである。本論文では、様々な文脈のオンラインニュース記事から抽出された抽象的なニュースキャプションデータセットであるANNAを発表する。我々は、現在のテキストから画像への合成モデルが、抽象的なキャプションを使用してニュース領域特有の画像を生成する能力を、標準的な学習と転移学習の両方の設定で、ANNAをベンチマークすることによって探求している。生成された画像は、文脈の関連性、視覚的品質、および、真実の画像とキャプションの組に対する知覚的類似性に基づいて判定される。実験を通して、伝達学習のような技術は抽象的なキャプションの理解に限定的な成功を収めるが、それでもコンテンツとコンテキストの特徴の関係を一貫して学習することはできないことを示す。

要約(オリジナル)

Advancements in Text-to-Image synthesis over recent years have focused more on improving the quality of generated samples on datasets with descriptive captions. However, real-world image-caption pairs present in domains such as news data do not use simple and directly descriptive captions. With captions containing information on both the image content and underlying contextual cues, they become abstractive in nature. In this paper, we launch ANNA, an Abstractive News captioNs dAtaset extracted from online news articles in a variety of different contexts. We explore the capabilities of current Text-to-Image synthesis models to generate news domain-specific images using abstractive captions by benchmarking them on ANNA, in both standard training and transfer learning settings. The generated images are judged on the basis of contextual relevance, visual quality, and perceptual similarity to ground-truth image-caption pairs. Through our experiments, we show that techniques such as transfer learning achieve limited success in understanding abstractive captions but still fail to consistently learn the relationships between content and context features.

arxiv情報

著者 Aashish Anantha Ramakrishnan,Sharon X. Huang,Dongwon Lee
発行日 2023-01-05 17:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク