Link Prediction for Wikipedia Articles as a Natural Language Inference Task

要約

リンク予測タスクは、大規模な知識ベースの構造を自動的に理解するために不可欠です。
このペーパーでは、データ サイエンスおよび高度な分析 2023 コンペティション「効率的かつ効果的なリンク予測」(DSAA-2023 コンペティション) で、948,233 のトレーニングと公開テスト用の 238,265 を含むコーパスを使用して、このタスクを解決するシステムを紹介します。
この論文では、Wikipedia 記事内のリンク予測を自然言語推論 (NLI) タスクとして定式化するアプローチを紹介します。
自然言語処理と理解における最近の進歩からインスピレーションを得て、リンク予測を NLI タスクとしてキャストしました。このタスクでは、2 つの記事間のリンクの存在が前提として扱われ、そのタスクは、情報に基づいてこの前提が成立するかどうかを判断することです。
記事で紹介されています。
私たちは、Wikipedia 記事タスクのリンク予測のための文ペア分類に基づいてシステムを実装しました。
私たちのシステムは、パブリック テスト セットとプライベート テスト セットで、それぞれ 0.99996 マクロ F1 スコアと 1.00000 マクロ F1 スコアを達成しました。
私たちのチーム UIT-NLP は、プライベート テスト セットのパフォーマンスで 1 位と 2 位のスコアと同じ 3 位にランクされました。
私たちのコードは研究目的で公開されています。

要約(オリジナル)

Link prediction task is vital to automatically understanding the structure of large knowledge bases. In this paper, we present our system to solve this task at the Data Science and Advanced Analytics 2023 Competition ‘Efficient and Effective Link Prediction’ (DSAA-2023 Competition) with a corpus containing 948,233 training and 238,265 for public testing. This paper introduces an approach to link prediction in Wikipedia articles by formulating it as a natural language inference (NLI) task. Drawing inspiration from recent advancements in natural language processing and understanding, we cast link prediction as an NLI task, wherein the presence of a link between two articles is treated as a premise, and the task is to determine whether this premise holds based on the information presented in the articles. We implemented our system based on the Sentence Pair Classification for Link Prediction for the Wikipedia Articles task. Our system achieved 0.99996 Macro F1-score and 1.00000 Macro F1-score for the public and private test sets, respectively. Our team UIT-NLP ranked 3rd in performance on the private test set, equal to the scores of the first and second places. Our code is publicly for research purposes.

arxiv情報

著者 Chau-Thang Phan,Quoc-Nam Nguyen,Kiet Van Nguyen
発行日 2023-08-31 05:25:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク