Graph Neural Networks for Nomination and Representation Learning of Web Elements

要約

このホワイト ペーパーでは、DOM 要素の指名と表現学習の未調査の問題に取り組み、3 つの重要な貢献を行います。
まず、Web 上での要素表現の学習、分類、および指名のために提案された他のデータセットよりもはるかに豊富で多様な Web ページの大規模で現実的なデータセットを提示します。
このデータセットには、8,175 ドルの実際の e コマース Web サイトから手動でラベル付けされた 51,701 ドルの製品ページが含まれています。
次に、いくつかのグラフ ニューラル ネットワーク (GNN) アーキテクチャを Web サイトの DOM ツリーに適応させ、提案されたデータセットを使用して、さまざまな要素指名タスクのセットでパフォーマンスをベンチマークします。
要素の指定では、特定のクラスに対してページ上の 1 つの要素が選択されます。
私たちの挑戦的なデータセットでは、単純な畳み込み GNN が Web 要素の指名に関する最先端の方法よりも優れていることを示しています。
最後に、要素の指名精度をさらに高める新しいトレーニング方法を提案します。
Web の指名では、分類 (特定の要素にクラスを割り当てること) は通常、トレーニング中の指名の代理目的として使用されます。
私たちの新しいトレーニング方法論は、分類の目的をより複雑で有用な指名の目的に向けて導きます。

要約(オリジナル)

This paper tackles the under-explored problem of DOM element nomination and representation learning with three important contributions. First, we present a large-scale and realistic dataset of webpages, far richer and more diverse than other datasets proposed for element representation learning, classification and nomination on the web. The dataset contains $51,701$ manually labeled product pages from $8,175$ real e-commerce websites. Second, we adapt several Graph Neural Network (GNN) architectures to website DOM trees and benchmark their performance on a diverse set of element nomination tasks using our proposed dataset. In element nomination, a single element on a page is selected for a given class. We show that on our challenging dataset a simple Convolutional GNN outperforms state-of-the-art methods on web element nomination. Finally, we propose a new training method that further boosts the element nomination accuracy. In nomination for the web, classification (assigning a class to a given element) is usually used as a surrogate objective for nomination during training. Our novel training methodology steers the classification objective towards the more complex and useful nomination objective.

arxiv情報

著者 Alexandra Hotti,Riccardo Sven Risuleo,Stefan Magureanu,Aref Moradi,Jens Lagergren
発行日 2022-10-25 14:27:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CL, cs.CV, cs.HC, cs.IR, cs.LG パーマリンク