Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models

要約

自動生成された画像説明の品質を評価することは、文法性、適用範囲、正確性、真実性など、さまざまな側面を捉えるメトリクスを必要とする複雑なタスクです。
人間による評価は貴重な洞察を提供しますが、コストと時間がかかるため限界があります。
BLEU、ROUGE、METEOR、CIDEr などの既存の自動化された指標は、このギャップを埋めようとしていますが、人間の判断との相関が弱いことがよくあります。
この課題に対処するために、私たちは Image2Text2Image と呼ばれる新しい評価フレームワークを提案します。これは、テキストから画像への生成に Stable Diffusion や DALL-E などの拡散モデルを活用します。
Image2Text2Image フレームワークでは、入力画像はまず、評価用に選択された選択された画像キャプション モデルによって処理され、テキストによる説明が生成されます。
この生成された記述を使用して、拡散モデルは新しい画像を作成します。
元の画像と生成された画像から抽出された特徴を比較することにより、指定された類似性メトリックを使用してそれらの類似性を測定します。
高い類似性スコアは、モデルが忠実なテキスト記述を生成したことを示唆し、一方、低いスコアは不一致を強調し、モデルのパフォーマンスの潜在的な弱点を明らかにします。
特に、私たちのフレームワークは人間による注釈付きの参照キャプションに依存していないため、画像キャプション モデルを評価するための貴重なツールとなっています。
広範な実験と人間による評価により、私たちが提案する Image2Text2Image 評価フレームワークの有効性が検証されています。
コードとデータセットは、コミュニティでのさらなる研究をサポートするために公開されます。

要約(オリジナル)

Evaluating the quality of automatically generated image descriptions is a complex task that requires metrics capturing various dimensions, such as grammaticality, coverage, accuracy, and truthfulness. Although human evaluation provides valuable insights, its cost and time-consuming nature pose limitations. Existing automated metrics like BLEU, ROUGE, METEOR, and CIDEr attempt to fill this gap, but they often exhibit weak correlations with human judgment. To address this challenge, we propose a novel evaluation framework called Image2Text2Image, which leverages diffusion models, such as Stable Diffusion or DALL-E, for text-to-image generation. In the Image2Text2Image framework, an input image is first processed by a selected image captioning model, chosen for evaluation, to generate a textual description. Using this generated description, a diffusion model then creates a new image. By comparing features extracted from the original and generated images, we measure their similarity using a designated similarity metric. A high similarity score suggests that the model has produced a faithful textual description, while a low score highlights discrepancies, revealing potential weaknesses in the model’s performance. Notably, our framework does not rely on human-annotated reference captions, making it a valuable tool for assessing image captioning models. Extensive experiments and human evaluations validate the efficacy of our proposed Image2Text2Image evaluation framework. The code and dataset will be published to support further research in the community.

arxiv情報

著者 Jia-Hong Huang,Hongyi Zhu,Yixian Shen,Stevan Rudinac,Evangelos Kanoulas
発行日 2024-11-08 17:07:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク