Sparse Graph Representations for Procedural Instructional Documents

要約

ドキュメントの類似性の計算は、重複排除、照合、推奨に応用されるさまざまな NLP ドメインにおいて重要なタスクです。
ドキュメントの類似性を計算するための従来のアプローチには、ドキュメントの表現を学習し、埋め込みに対して類似性または距離関数を使用することが含まれます。
ただし、ペアごとの類似点と相違点は、個々の表現では効率的に捕捉されません。
Joint Concept Interaction Graph (JCIG) などのグラフ表現は、ドキュメントのペアを共同無向重み付きグラフとして表します。
JCIG は、文書ペアをグラフとして解釈しやすく表現することを容易にします。
ただし、JCIG は方向性がなく、文書内の文の連続した流れを考慮しません。
我々は、ドキュメントのペアをシーケンシャルな情報を組み込んだ有向かつスパースな JCIG として表すことにより、ドキュメントの類似性をモデル化する 2 つのアプローチを提案します。
私たちは、スーパーゲノムソーティングとハミルトニアンパスにインスピレーションを得て、無向エッジを有向エッジに置き換える 2 つのアルゴリズムを提案します。
私たちのアプローチでは、グラフを JCIG の最悪ケース $O(n^2)$ から $O(n)$ エッジまで分散します。
シャム エンコーダと GCN で構成されるスパース有向グラフ モデル アーキテクチャが、逐次情報を含まないデータセットではベースラインと同等の結果を達成し、逐次情報を含む指導文書データセットではベースラインを 10 ポイント上回っていることを示します。

要約(オリジナル)

Computation of document similarity is a critical task in various NLP domains that has applications in deduplication, matching, and recommendation. Traditional approaches for document similarity computation include learning representations of documents and employing a similarity or a distance function over the embeddings. However, pairwise similarities and differences are not efficiently captured by individual representations. Graph representations such as Joint Concept Interaction Graph (JCIG) represent a pair of documents as a joint undirected weighted graph. JCIGs facilitate an interpretable representation of document pairs as a graph. However, JCIGs are undirected, and don’t consider the sequential flow of sentences in documents. We propose two approaches to model document similarity by representing document pairs as a directed and sparse JCIG that incorporates sequential information. We propose two algorithms inspired by Supergenome Sorting and Hamiltonian Path that replace the undirected edges with directed edges. Our approach also sparsifies the graph to $O(n)$ edges from JCIG’s worst case of $O(n^2)$. We show that our sparse directed graph model architecture consisting of a Siamese encoder and GCN achieves comparable results to the baseline on datasets not containing sequential information and beats the baseline by ten points on an instructional documents dataset containing sequential information.

arxiv情報

著者 Shruti Singh,Rishabh Gupta
発行日 2024-02-06 12:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク