要約
最近、事前トレーニング済み言語モデル (PLM) を微調整すると、ナレッジ グラフ補完 (KGC) が向上する可能性が示されました。
ただし、ほとんどの PLM ベースの手法はテキスト情報のエンコードのみに焦点を当てており、ナレッジ グラフのロングテールの性質やそのさまざまな位相構造 (サブグラフ、最短パス、次数など) を無視しています。
これが KGC の PLM の高精度を達成する上での大きな障害になっていると私たちは主張します。
この目的を達成するために、我々は 2 つのアイデアを備えた KGC 用のサブグラフ認識トレーニング フレームワーク (SATKGC) を提案します。(i) ハード ネガティブ サンプリングを促進し、トレーニング中のエンティティの出現頻度の不均衡を緩和するためのサブグラフ認識ミニバッチ処理。
(ii) ナレッジ グラフの構造特性の観点から、バッチ内のより困難な負のトリプルとより困難な正のトリプルに重点を置く新しい対照的な学習。
私たちの知る限り、これはナレッジ グラフの構造的な誘導バイアスを PLM の微調整に包括的に組み込んだ最初の研究です。
3 つの KGC ベンチマークに関する広範な実験により、SATKGC の優位性が実証されました。
私たちのコードが利用可能です。
要約(オリジナル)
Fine-tuning pre-trained language models (PLMs) has recently shown a potential to improve knowledge graph completion (KGC). However, most PLM-based methods focus solely on encoding textual information, neglecting the long-tailed nature of knowledge graphs and their various topological structures, e.g., subgraphs, shortest paths, and degrees. We claim that this is a major obstacle to achieving higher accuracy of PLMs for KGC. To this end, we propose a Subgraph-Aware Training framework for KGC (SATKGC) with two ideas: (i) subgraph-aware mini-batching to encourage hard negative sampling and to mitigate an imbalance in the frequency of entity occurrences during training, and (ii) new contrastive learning to focus more on harder in-batch negative triples and harder positive triples in terms of the structural properties of the knowledge graph. To the best of our knowledge, this is the first study to comprehensively incorporate the structural inductive bias of the knowledge graph into fine-tuning PLMs. Extensive experiments on three KGC benchmarks demonstrate the superiority of SATKGC. Our code is available.
arxiv情報
著者 | Youmin Ko,Hyemin Yang,Taeuk Kim,Hyunjoon Kim |
発行日 | 2024-10-15 15:59:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google