要約
大量のコードを含むコーパスでトレーニングされた大規模言語モデル (LLM) は、HTML コードを理解する優れた能力を示します。
Web インターフェースは主に HTML を使用して構築されるため、Web インターフェースでユーザーが指定したクエリ (つまり、タスクの説明) の重要な要素を取得して特定するために LLM を使用する方法を確認するための詳細な研究を設計します。
主に自律的な Web ナビゲーションに焦点を当てた以前の研究とは対照的に、私たちは問題を均等なアトミック操作として分解します。LLM は、ユーザーが指定したクエリに対して Web ページ内の重要な情報を識別できるか?
この分解により、LLM の現在の機能を精査し、LLM がもたらす機会と課題を明らかにすることができます。
私たちの実証実験では、LLM は重要な UI 要素を取得する際に妥当なレベルのパフォーマンスを示しますが、まだ改善の余地がかなりあることがわかりました。
私たちの調査が、この分野における現在の課題を克服するためのフォローアップ作業のきっかけとなることを願っています。
要約(オリジナル)
Large language models (LLMs) that have been trained on a corpus that includes large amount of code exhibit a remarkable ability to understand HTML code. As web interfaces are primarily constructed using HTML, we design an in-depth study to see how LLMs can be used to retrieve and locate important elements for a user given query (i.e. task description) in a web interface. In contrast with prior works, which primarily focused on autonomous web navigation, we decompose the problem as an even atomic operation – Can LLMs identify the important information in the web page for a user given query? This decomposition enables us to scrutinize the current capabilities of LLMs and uncover the opportunities and challenges they present. Our empirical experiments show that while LLMs exhibit a reasonable level of performance in retrieving important UI elements, there is still a substantial room for improvement. We hope our investigation will inspire follow-up works in overcoming the current challenges in this domain.
arxiv情報
| 著者 | Faria Huq,Jeffrey P. Bigham,Nikolas Martelaro |
| 発行日 | 2023-12-11 06:26:38+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google