Topics as Entity Clusters: Entity-based Topics from Large Language Models and Graph Neural Networks

要約

トピック モデルは、通常、文書のバッグオブワード表現に対する用語頻度統計を使用して、テキストのコーパス内の潜在的な構造を明らかにすることを目的としています。
近年、単語レベルのトークンの代わりに概念的エンティティ(外部の知識リソースにリンクされた解釈可能な言語に依存しない機能)が使用されています。これは、単語は通常、解釈可能性の保証は最小限で広範な言語処理を必要とするためです。
ただし、純粋にエンティティ駆動型のニューラル トピック モデリングを探求する場合、現在の文献は限られています。
たとえば、テーマ構造を引き出すためにエンティティを使用する利点にもかかわらず、現在の技術が、これらのまばらに組織され、情報が密集した概念単位と互換性があるかどうかは不明です。
この研究では、エンティティベースのニューラルトピックモデリングを調査し、エンティティの二峰性ベクトル表現を使用した新しいトピッククラスタリングアプローチを提案します。
具体的には、これらの概念単位の最も顕著な側面を導き出すために、大規模な言語モデルと記号関係の知識ベースでトレーニングされたグラフ ニューラル ネットワークからこれらの潜在表現を抽出します。
一貫性メトリクスの分析により、私たちのアプローチは、特に知識ベースでトレーニングされたグラフベースの埋め込みを使用する場合、最先端のモデルと比較してエンティティの操作に適していることが確認されています。

要約(オリジナル)

Topic models aim to reveal latent structures within a corpus of text, typically through the use of term-frequency statistics over bag-of-words representations from documents. In recent years, conceptual entities — interpretable, language-independent features linked to external knowledge resources — have been used in place of word-level tokens, as words typically require extensive language processing with a minimal assurance of interpretability. However, current literature is limited when it comes to exploring purely entity-driven neural topic modeling. For instance, despite the advantages of using entities for eliciting thematic structure, it is unclear whether current techniques are compatible with these sparsely organised, information-dense conceptual units. In this work, we explore entity-based neural topic modeling and propose a novel topic clustering approach using bimodal vector representations of entities. Concretely, we extract these latent representations from large language models and graph neural networks trained on a knowledge base of symbolic relations, in order to derive the most salient aspects of these conceptual units. Analysis of coherency metrics confirms that our approach is better suited to working with entities in comparison to state-of-the-art models, particularly when using graph-based embeddings trained on a knowledge base.

arxiv情報

著者 Manuel V. Loureiro,Steven Derby,Tri Kurniawan Wijaya
発行日 2024-08-23 08:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク