DiffuSyn Bench: Evaluating Vision-Language Models on Real-World Complexities with Diffusion-Generated Synthetic Benchmarks

要約

この研究では、AI が生成した画像と人間が生成した画像を区別するラージ ビジョン言語モデル (LVLM) の能力を評価します。
この評価には、新しい自動ベンチマーク構築方法が導入されています。
実験では、AI と人間が作成した画像の混合データセットを使用して、一般的な LVLM と人間の参加者を比較しました。
結果は、LVLM は画像の種類をある程度区別できるものの、右方向の偏りが見られ、人間と比較してパフォーマンスが著しく悪いことが示されました。
これらの発見に基づいて、AI を使用した自動ベンチマーク構築プロセスを開発しました。
このプロセスには、トピックの取得、物語スクリプトの生成、エラーの埋め込み、および画像の生成が含まれ、意図的なエラーを含むさまざまなテキストと画像のペアが作成されます。
私たちは 2 つの可能なベンチマークを構築することで手法を検証しました。
この研究では、現実世界の理解における LVLM の長所と短所を明らかにし、ベンチマーク構築手法を進歩させ、AI モデル評価のためのスケーラブルで自動なアプローチを提供します。

要約(オリジナル)

This study assesses the ability of Large Vision-Language Models (LVLMs) to differentiate between AI-generated and human-generated images. It introduces a new automated benchmark construction method for this evaluation. The experiment compared common LVLMs with human participants using a mixed dataset of AI and human-created images. Results showed that LVLMs could distinguish between the image types to some extent but exhibited a rightward bias, and perform significantly worse compared to humans. To build on these findings, we developed an automated benchmark construction process using AI. This process involved topic retrieval, narrative script generation, error embedding, and image generation, creating a diverse set of text-image pairs with intentional errors. We validated our method through constructing two caparable benchmarks. This study highlights the strengths and weaknesses of LVLMs in real-world understanding and advances benchmark construction techniques, providing a scalable and automatic approach for AI model evaluation.

arxiv情報

著者 Haokun Zhou,Yipeng Hong
発行日 2024-06-13 16:46:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク