Understanding HTML with Large Language Models

要約

大規模言語モデル (LLM) は、さまざまな自然言語タスクで優れたパフォーマンスを示しています。
しかし、HTML を理解するための機能、つまり、Web ページの生の HTML を解析し、Web ベースのタスクの自動化、クローリング、およびブラウザ支援の検索への応用を行う機能は、十分に研究されていません。
私たちは、HTML 理解モデル (微調整された LLM) と、(i) HTML 要素の意味分類、(ii) HTML 入力の説明生成、および (iii) HTML 要素の自律的な Web ナビゲーションの 3 つのタスクの下でその機能の詳細な分析に貢献します。
HTML ページ。
これまでの研究では、HTML を理解するための専用のアーキテクチャとトレーニング手順を開発しましたが、標準的な自然言語コーパスで事前トレーニングされた LLM は、HTML 理解タスクに非常にうまく移行できることを示しました。
たとえば、微調整された LLM は、タスク データセットのみでトレーニングされたモデルと比較して、意味分類の精度が 12% 高くなります。
さらに、MiniWoB ベンチマークからのデータを微調整すると、LLM は、以前の最良の教師ありモデルと比較して、192 分の 1 のデータを使用して 50% 多いタスクを正常に完了できます。
私たちが評価した LLM のうち、T5 ベースのモデルが双方向のエンコーダ/デコーダ アーキテクチャにより理想的であるという証拠を示します。
HTML を理解するための LLM に関するさらなる研究を促進するために、CommonCrawl から抽出され自動ラベル付けされた大規模な HTML データセットを作成し、オープンソースにします。

要約(オリジナル)

Large language models (LLMs) have shown exceptional performance on a variety of natural language tasks. Yet, their capabilities for HTML understanding — i.e., parsing the raw HTML of a webpage, with applications to automation of web-based tasks, crawling, and browser-assisted retrieval — have not been fully explored. We contribute HTML understanding models (fine-tuned LLMs) and an in-depth analysis of their capabilities under three tasks: (i) Semantic Classification of HTML elements, (ii) Description Generation for HTML inputs, and (iii) Autonomous Web Navigation of HTML pages. While previous work has developed dedicated architectures and training procedures for HTML understanding, we show that LLMs pretrained on standard natural language corpora transfer remarkably well to HTML understanding tasks. For instance, fine-tuned LLMs are 12% more accurate at semantic classification compared to models trained exclusively on the task dataset. Moreover, when fine-tuned on data from the MiniWoB benchmark, LLMs successfully complete 50% more tasks using 192x less data compared to the previous best supervised model. Out of the LLMs we evaluate, we show evidence that T5-based models are ideal due to their bidirectional encoder-decoder architecture. To promote further research on LLMs for HTML understanding, we create and open-source a large-scale HTML dataset distilled and auto-labeled from CommonCrawl.

arxiv情報

著者 Izzeddin Gur,Ofir Nachum,Yingjie Miao,Mustafa Safdari,Austin Huang,Aakanksha Chowdhery,Sharan Narang,Noah Fiedel,Aleksandra Faust
発行日 2023-05-19 17:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク