Implementation of a noisy hyperlink removal system: A semantic and relatedness approach

要約

Web上のデータ量の増大に伴い、Webをグラフで表現した「Web構造グラフ」は進化を続けています。このグラフの構造は、コンテンツベースからノンコンテンツベースへと徐々に変化しています。さらに、ウェブ構造グラフに含まれるノイズの多いハイパーリンクなどのスパムデータは、情報検索やリンクマイニングアルゴリズムの速度や効率に悪影響を与える。この分野の先行研究では、構造的アプローチや文字列アプローチを用いてノイズの多いハイパーリンクを除去することに焦点が当てられています。しかし、これらのアプローチは、特定の状況において、有用なリンクを誤って削除したり、ノイズとなるハイパーリンクを検出できなかったりすることがある。本論文では、ハイパーリンクのデータコレクションを、対話型クローラーを使って最初に構築する。次に、DBpediaオントロジーのようなセマンティックウェブのアプローチとツールによって、ハイパーリンクの意味と関連性の構造を研究する。最後に、DBpediaオントロジーを用いた推論により、ノイズとなるハイパーリンクの除去を行う。我々の実験は、セマンティックウェブ技術がノイズの多いハイパーリンクを除去する精度と能力を実証している。

要約(オリジナル)

As the volume of data on the web grows, the web structure graph, which is a graph representation of the web, continues to evolve. The structure of this graph has gradually shifted from content-based to non-content-based. Furthermore, spam data, such as noisy hyperlinks, in the web structure graph adversely affect the speed and efficiency of information retrieval and link mining algorithms. Previous works in this area have focused on removing noisy hyperlinks using structural and string approaches. However, these approaches may incorrectly remove useful links or be unable to detect noisy hyperlinks in certain circumstances. In this paper, a data collection of hyperlinks is initially constructed using an interactive crawler. The semantic and relatedness structure of the hyperlinks is then studied through semantic web approaches and tools such as the DBpedia ontology. Finally, the removal process of noisy hyperlinks is carried out using a reasoner on the DBpedia ontology. Our experiments demonstrate the accuracy and ability of semantic web technologies to remove noisy hyperlinks

arxiv情報

著者 Kazem Taghandiki,Elnaz Rezaei Ehsan
発行日 2023-03-06 17:48:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.IR パーマリンク