WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

要約

LLMベースのエージェントは、複雑なコードベース内でコードを生成および管理する上で大きな可能性を示しています。
このペーパーでは、LLMベースのエージェントのマルチファイルWebサイトコードベースをゼロから作成する能力を測定するために設計された新しいベンチマークであるWebgen-Benchを紹介します。
これには、人間のアノテーターとGPT-4oの組み合わせの努力を通じて作成されたWebサイト生成に関する多様な指示が含まれています。
これらの指示には、3つの主要なカテゴリと13のマイナーカテゴリに至ります。これは、ほぼすべての重要なタイプのWebアプリケーションを網羅しています。
生成されたWebサイトの品質を評価するために、GPT-4Oを使用して、命令に記載されている各機能をターゲットにしたテストケースを生成し、それらを手動でフィルタリング、調整、整理して精度を確保し、647のテストケースになります。
各テストケースは、Webサイトで実行される操作と操作後の予想される結果を指定します。
テストを自動化し、再現性を向上させるために、強力なWebナビゲーションエージェントを採用して、生成されたWebサイトでテストを実行し、観測された応答が期待される結果と一致するかどうかを判断します。
複数の独自およびオープンソースLLMSをエンジンとして使用して、3つの高性能コードエージェントフレームワーク、bolt.diy、openhands、およびaiderを評価します。
Deepseek-R1を搭載したBolt.Diyの最適な組み合わせは、テストケースで27.8%の精度しか達成されておらず、ベンチマークの挑戦的な性質を強調しています。
さらに、6,667のWebサイト生成手順で構成されるトレーニングセットであるWebgen-Instructを構築します。
このトレーニングセットのサブセットから生成されたbolt.diy軌道上のqwen2.5-coder-32b-instructのトレーニングは、38.2 \%の精度を達成し、最高の独自モデルのパフォーマンスを上回ります。

要約(オリジナル)

LLM-based agents have demonstrated great potential in generating and managing code within complex codebases. In this paper, we introduce WebGen-Bench, a novel benchmark designed to measure an LLM-based agent’s ability to create multi-file website codebases from scratch. It contains diverse instructions for website generation, created through the combined efforts of human annotators and GPT-4o. These instructions span three major categories and thirteen minor categories, encompassing nearly all important types of web applications. To assess the quality of the generated websites, we use GPT-4o to generate test cases targeting each functionality described in the instructions, and then manually filter, adjust, and organize them to ensure accuracy, resulting in 647 test cases. Each test case specifies an operation to be performed on the website and the expected result after the operation. To automate testing and improve reproducibility, we employ a powerful web-navigation agent to execute tests on the generated websites and determine whether the observed responses align with the expected results. We evaluate three high-performance code-agent frameworks, Bolt.diy, OpenHands, and Aider, using multiple proprietary and open-source LLMs as engines. The best-performing combination, Bolt.diy powered by DeepSeek-R1, achieves only 27.8\% accuracy on the test cases, highlighting the challenging nature of our benchmark. Additionally, we construct WebGen-Instruct, a training set consisting of 6,667 website-generation instructions. Training Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories generated from a subset of this training set achieves an accuracy of 38.2\%, surpassing the performance of the best proprietary model.

arxiv情報

著者 Zimu Lu,Yunqiao Yang,Houxing Ren,Haotian Hou,Han Xiao,Ke Wang,Weikang Shi,Aojun Zhou,Mingjie Zhan,Hongsheng Li
発行日 2025-05-06 17:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク