要約
テキストと対応する画像が意味的に整合しているかどうかを自動的に判断することは、テキストから画像への生成タスクや画像からテキストへの生成タスクに応用する場合、視覚言語モデルにとって重要な課題です。
この研究では、テキストと画像の位置合わせを自動的に評価する方法を研究します。
まず SeeTRUE を紹介します。これは、テキストから画像への生成タスクと画像からテキストへの生成タスクの両方からの複数のデータセットにまたがる包括的な評価セットであり、特定のテキストと画像のペアが意味的に整合しているかどうかについて人間の判断が行われます。
次に、整合性を判断するための 2 つの自動方法について説明します。1 つは質問生成モデルと視覚的な質問応答モデルに基づくパイプラインを使用し、2 つ目はマルチモーダルな事前トレーニング済みモデルを微調整することによるエンドツーエンドの分類アプローチを採用します。
どちらの方法も、さまざまなテキストと画像の位置合わせタスクにおいて従来のアプローチを上回り、複雑な構成や不自然な画像を伴う困難なケースにおいて大幅な改善が見られます。
最後に、私たちのアプローチが画像と特定のテキストの間の特定の位置ずれをどのように特定できるか、またそれらのアプローチを使用してテキストから画像への生成で候補を自動的に再ランク付けする方法を示します。
要約(オリジナル)
Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.
arxiv情報
著者 | Michal Yarom,Yonatan Bitton,Soravit Changpinyo,Roee Aharoni,Jonathan Herzig,Oran Lang,Eran Ofek,Idan Szpektor |
発行日 | 2023-12-26 15:58:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google