Do DALL-E and Flamingo Understand Each Other?

要約

マルチモーダル研究の主な目標は、画像とテキストの機械理解を向上させることです。
タスクには、画像キャプション、テキストから画像への生成、および視覚言語表現の学習が含まれます。
これまでの研究は、画像とテキストの関係に焦点を当ててきました。
たとえば、キャプション モデルは、画像のセマンティクスを理解しようとし、それをテキストに変換します。
重要な問題は、どの注釈が画像コンテンツの深い理解を最もよく反映しているのかということです。
同様に、テキストが与えられた場合、テキストのセマンティクスを表現できる最良の画像は何ですか?
この作業では、特定の画像に最適なテキストまたはキャプションは、その画像に最も類似した画像を生成するテキストであると主張します。
同様に、特定のテキストに最適な画像は、元のテキストと最もよく一致するキャプションになる画像です。
この目的のために、テキストから画像への生成モデルと画像からテキストへの生成モデルの両方を含む統一されたフレームワークを提案します。
広範な実験により、私たちのアプローチが検証されます。

要約(オリジナル)

A major goal of multimodal research is to improve machine understanding of images and text. Tasks include image captioning, text-to-image generation, and vision-language representation learning. So far, research has focused on the relationships between images and text. For example, captioning models attempt to understand the semantics of images which are then transformed into text. An important question is: which annotation reflects best a deep understanding of image content? Similarly, given a text, what is the best image that can present the semantics of the text? In this work, we argue that the best text or caption for a given image is the text which would generate the image which is the most similar to that image. Likewise, the best image for a given text is the image that results in the caption which is best aligned with the original text. To this end, we propose a unified framework that includes both a text-to-image generative model and an image-to-text generative model. Extensive experiments validate our approach.

arxiv情報

著者 Hang Li,Jindong Gu,Rajat Koner,Sahand Sharifzadeh,Volker Tresp
発行日 2022-12-23 10:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク