Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs

要約

マルチモーダル大規模言語モデル (MLLM) は、さまざまな理解および生成タスクにおいて、画像、ビデオ、オーディオなどのモダリティ全体で目覚ましい成功を収めています。
しかし、現在の MLLM は、Web ページのスクリーンショットを理解し、対応する HTML コードを生成することが驚くほど苦手です。
この問題に対処するために、我々は Web2Code を提案します。これは、命令チューニング用の新しい大規模な Web ページからコードへのデータセットと、MLLM の Web ページ理解および HTML コード変換能力の評価フレームワークで構成されるベンチマークです。
データセットの構築では、事前トレーニング済み LLM を活用して、既存の Web ページからコードへのデータセットを強化し、画像にレンダリングされた新しい Web ページの多様なプールを生成します。
具体的には、入力は Web ページの画像と命令であり、応答は Web ページの HTML コードです。
さらに、Web コンテンツをより包括的に理解できるように、Web ページ コンテンツに関するさまざまな自然言語 QA ペアを回答に含めます。
これらのタスクにおけるモデルのパフォーマンスを評価するために、Web ページの理解と Web-to-Code 生成における MLLM の能力をテストするための評価フレームワークを開発します。
広範な実験により、私たちが提案したデータセットは、提案したタスクだけでなく一般的な視覚領域にも有益である一方、以前のデータセットではパフォーマンスが低下することが示されました。
私たちの研究が、Web ベースのコンテンツ生成とタスク自動化に適した一般的な MLLM の開発に貢献することを願っています。
データとコードは https://github.com/MBZUAI-LLM/web2code で入手できます。

要約(オリジナル)

Multimodal large language models (MLLMs) have shown impressive success across modalities such as image, video, and audio in a variety of understanding and generation tasks. However, current MLLMs are surprisingly poor at understanding webpage screenshots and generating their corresponding HTML code. To address this problem, we propose Web2Code, a benchmark consisting of a new large-scale webpage-to-code dataset for instruction tuning and an evaluation framework for the webpage understanding and HTML code translation abilities of MLLMs. For dataset construction, we leverage pretrained LLMs to enhance existing webpage-to-code datasets as well as generate a diverse pool of new webpages rendered into images. Specifically, the inputs are webpage images and instructions, while the responses are the webpage’s HTML code. We further include diverse natural language QA pairs about the webpage content in the responses to enable a more comprehensive understanding of the web content. To evaluate model performance in these tasks, we develop an evaluation framework for testing MLLMs’ abilities in webpage understanding and web-to-code generation. Extensive experiments show that our proposed dataset is beneficial not only to our proposed tasks but also in the general visual domain, while previous datasets result in worse performance. We hope our work will contribute to the development of general MLLMs suitable for web-based content generation and task automation. Our data and code will be available at https://github.com/MBZUAI-LLM/web2code.

arxiv情報

著者 Sukmin Yun,Haokun Lin,Rusiru Thushara,Mohammad Qazim Bhat,Yongxin Wang,Zutao Jiang,Mingkai Deng,Jinhong Wang,Tianhua Tao,Junbo Li,Haonan Li,Preslav Nakov,Timothy Baldwin,Zhengzhong Liu,Eric P. Xing,Xiaodan Liang,Zhiqiang Shen
発行日 2024-06-28 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク