WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code

要約

生成AIテクノロジーの急速な進歩により、マルチモーダルラージランゲージモデル(MLLM)は、複雑なWebアプリケーション開発を実行できるAIソフトウェアエンジニアとして機能する可能性があります。
このモデルには、さまざまな開発フェーズの課題に対処するために多次元サブ資本の合流が必要であることを考慮すると、マルチビュー評価フレームワークを構築することは、開発効率の強化を正確に導くために重要です。
ただし、既存のベンチマークは通常、サブ能力の評価を提供することができず、Webページの生成の結果のみに焦点を当てています。
この作業では、ソフトウェアエンジニアリングの原則からインスピレーションを得て、さらにWebUibenchをさらに提案します。WebUIは、WebUI認識、HTMLプログラミング、WebUI-HTML理解、WebUI-to-Codeの4つの重要な分野でMLLMを評価するために体系的に設計されています。
WebUibenchは、0.7Kを超える現実世界のWebサイトから派生した21kの高品質の質問回答ペアで構成されています。
29の主流MLLMの広範な評価は、開発プロセス中にモデルが遭遇したスキル特性とさまざまな弱点を明らかにします。

要約(オリジナル)

With the rapid advancement of Generative AI technology, Multimodal Large Language Models(MLLMs) have the potential to act as AI software engineers capable of executing complex web application development. Considering that the model requires a confluence of multidimensional sub-capabilities to address the challenges of various development phases, constructing a multi-view evaluation framework is crucial for accurately guiding the enhancement of development efficiency. However, existing benchmarks usually fail to provide an assessment of sub-capabilities and focus solely on webpage generation outcomes. In this work, we draw inspiration from the principles of software engineering and further propose WebUIBench, a benchmark systematically designed to evaluate MLLMs in four key areas: WebUI Perception, HTML Programming,WebUI-HTML Understanding, and WebUI-to-Code. WebUIBench comprises 21K high-quality question-answer pairs derived from over 0.7K real-world websites. The extensive evaluation of 29 mainstream MLLMs uncovers the skill characteristics and various weakness that models encountered during the development process.

arxiv情報

著者 Zhiyu Lin,Zhengda Zhou,Zhiyuan Zhao,Tianrui Wan,Yilun Ma,Junyu Gao,Xuelong Li
発行日 2025-06-09 14:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク