要約
大規模ビジョン言語モデル (LVLM) は、単一のモデルで画像とテキスト入力を処理できる言語モデルです。
このペーパーでは、LVLM を使用して画像のレビュー テキストを生成する方法について説明します。
LVLM の画像をレビューする能力は完全には理解されていないため、LVLM のレビュー能力を系統的に評価する必要性が強調されています。
画像キャプションとは異なり、レビュー文章は画像の構図や露出などさまざまな視点から書くことができます。
このレビューの観点の多様性により、画像に対する単一の正しいレビューを一意に決定することが困難になります。
この課題に対処するために、私たちは順位相関分析に基づいた評価方法を導入します。この評価手法では、人間と LVLM によってレビューテキストを順位付けし、これらの順位間の相関関係を測定します。
最近の LVLM の画像レビュー能力を評価することを目的としたベンチマーク データセットを作成することで、このアプローチをさらに検証します。
データセットを使った実験では、LVLM、特に他の評価コンテキストで優れていることが証明されているLVLMが、高品質の画像レビューと標準以下の画像レビューを区別することに優れていることが明らかになりました。
要約(オリジナル)
Large-scale vision language models (LVLMs) are language models that are capable of processing images and text inputs by a single model. This paper explores the use of LVLMs to generate review texts for images. The ability of LVLMs to review images is not fully understood, highlighting the need for a methodical evaluation of their review abilities. Unlike image captions, review texts can be written from various perspectives such as image composition and exposure. This diversity of review perspectives makes it difficult to uniquely determine a single correct review for an image. To address this challenge, we introduce an evaluation method based on rank correlation analysis, in which review texts are ranked by humans and LVLMs, then, measures the correlation between these rankings. We further validate this approach by creating a benchmark dataset aimed at assessing the image review ability of recent LVLMs. Our experiments with the dataset reveal that LVLMs, particularly those with proven superiority in other evaluative contexts, excel at distinguishing between high-quality and substandard image reviews.
arxiv情報
著者 | Shigeki Saito,Kazuki Hayashi,Yusuke Ide,Yusuke Sakai,Kazuma Onishi,Toma Suzuki,Seiji Gobara,Hidetaka Kamigaito,Katsuhiko Hayashi,Taro Watanabe |
発行日 | 2024-02-19 13:16:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google