Anchor Prediction: Automatic Refinement of Internet Links


インターネット リンクにより、ユーザーは関連情報に簡単にアクセスできるため、トピックについての理解を深めることができます。
ただし、リンクの大部分はアンカーされていません。これらはターゲット Web ページ全体にリンクしているため、読者はリンクのソース コンテキストの理解を深めるために、ターゲット Web ページの特定の部分をローカライズするのに多大な労力を費やす可能性があります。
読者がリンクされた Web ページ内の情報を効果的に見つけられるようにするために、アンカー予測のタスクを導入します。このタスクの目的は、ソースのリンク コンテキストに最も関連するリンク先の Web ページの特定の部分を識別することです。
私たちは、ソース記事の著者による関連性の判断を反映した 34,000 個の自然に発生するアンカー リンクのコレクションである AuthorAnchors データセットをリリースします。
読者の関連性の判断をモデル化するために、読者が役立つと思われるアンカーの評価セットである ReaderAnchors に注釈を付けてリリースします。
私たちの分析によると、効果的なアンカー予測には、多くの場合、長いソース Web ページとターゲット Web ページを共同で推論して、それらの暗黙の関係を判断し、ターゲット Web ページの関連しているが冗長ではない部分を特定する必要があります。
私たちは、パフォーマンスの高い T5 ベースのランキング アプローチをベンチマークして、タスクのベースライン パフォーマンスを確立し、改善の余地が十分にあることを見つけます。


Internet links enable users to deepen their understanding of a topic by providing convenient access to related information. However, the majority of links are unanchored — they link to a target webpage as a whole, and readers may expend considerable effort localizing the specific parts of the target webpage that enrich their understanding of the link’s source context. To help readers effectively find information in linked webpages, we introduce the task of anchor prediction, where the goal is to identify the specific part of the linked target webpage that is most related to the source linking context. We release the AuthorAnchors dataset, a collection of 34K naturally-occurring anchored links, which reflect relevance judgments by the authors of the source article. To model reader relevance judgments, we annotate and release ReaderAnchors, an evaluation set of anchors that readers find useful. Our analysis shows that effective anchor prediction often requires jointly reasoning over lengthy source and target webpages to determine their implicit relations and identify parts of the target webpage that are related but not redundant. We benchmark a performant T5-based ranking approach to establish baseline performance on the task, finding ample room for improvement.


著者 Nelson F. Liu,Kenton Lee,Kristina Toutanova
発行日 2023-05-23 17:58:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.IR パーマリンク