要約
Web ページのデザインを機能的な UI コードに変換することは、Web サイトを構築するための重要なステップですが、労力と時間がかかる場合があります。
この設計からコードへの変換プロセスを自動化するために、学習ベースのネットワークとマルチモーダル大規模言語モデル (MLLM) を使用したさまざまな自動化方法が提案されています。
ただし、これらの研究は狭い範囲の静的 Web ページで評価されただけであり、動的なインタラクション要素が無視されているため、実際の Web サイト展開にはあまり実用的ではありません。
空白を埋めるために、インタラクティブな Web ページの生成における MLLM に関する最初の体系的な調査を紹介します。
具体的には、まず Interaction-to-Code タスクを定式化し、15 の Web ページ タイプと 30 のインタラクション カテゴリにわたる 97 の固有の Web ページと 213 の異なるインタラクションを含む Interaction2Code ベンチマークを構築します。
次に、自動メトリクスと人間による評価の両方を使用して 3 つの最先端 (SOTA) MLLM で包括的な実験を実施し、それに応じて 6 つの調査結果を要約します。
私たちの実験結果は、きめの細かいインタラクティブな機能を生成し、複雑な変換や微妙な視覚的変更を伴うインタラクションを管理する際の MLLM の限界を浮き彫りにしています。
さらに障害ケースとその根本的な原因を分析し、一般的な 10 種類の障害を特定し、その重大度を評価します。
さらに、我々の調査結果は、MLLM のインタラクション生成パフォーマンスを向上させる可能性がある 3 つの重要な影響因子、つまりプロンプト、視覚的顕著性、およびテキスト説明を明らかにしました。
これらの発見に基づいて、私たちは研究者や開発者への示唆を引き出し、この分野の将来の進歩のための基盤を提供します。
データセットとソース コードは https://github.com/WebPAI/Interaction2Code で入手できます。
要約(オリジナル)
Converting webpage design into functional UI code is a critical step for building websites, which can be labor-intensive and time-consuming. To automate this design-to-code transformation process, various automated methods using learning-based networks and multi-modal large language models (MLLMs) have been proposed. However, these studies were merely evaluated on a narrow range of static web pages and ignored dynamic interaction elements, making them less practical for real-world website deployment. To fill in the blank, we present the first systematic investigation of MLLMs in generating interactive webpages. Specifically, we first formulate the Interaction-to-Code task and build the Interaction2Code benchmark that contains 97 unique web pages and 213 distinct interactions, spanning 15 webpage types and 30 interaction categories. We then conduct comprehensive experiments on three state-of-the-art (SOTA) MLLMs using both automatic metrics and human evaluations, thereby summarizing six findings accordingly. Our experimental results highlight the limitations of MLLMs in generating fine-grained interactive features and managing interactions with complex transformations and subtle visual modifications. We further analyze failure cases and their underlying causes, identifying 10 common failure types and assessing their severity. Additionally, our findings reveal three critical influencing factors, i.e., prompts, visual saliency, and textual descriptions, that can enhance the interaction generation performance of MLLMs. Based on these findings, we elicit implications for researchers and developers, providing a foundation for future advancements in this field. Datasets and source code are available at https://github.com/WebPAI/Interaction2Code.
arxiv情報
著者 | Jingyu Xiao,Yuxuan Wan,Yintong Huo,Zhiyao Xu,Michael R. Lyu |
発行日 | 2024-11-05 17:40:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google