Graph-Convolutional Networks: Named Entity Recognition and Large Language Model Embedding in Document Clustering

要約

機械学習、特に BERT や GPT などの大規模言語モデル (LLM) の最近の進歩により、テキスト表現を向上させるリッチなコンテキスト埋め込みが提供されます。
ただし、現在のドキュメント クラスタリングのアプローチでは、名前付きエンティティ (NE) と LLM 埋め込みの可能性との間のより深い関係が無視されることがよくあります。
この論文では、文書クラスタリングのためのグラフベースのフレームワーク内に固有表現認識 (NER) と LLM 埋め込みを統合する新しいアプローチを提案します。
このメソッドは、グラフ畳み込みネットワーク (GCN) を使用して最適化された、名前付きエンティティの類似性によって重み付けされたドキュメントとエッジを表すノードを含むグラフを構築します。
これにより、意味的に関連するドキュメントをより効果的にグループ化できます。
実験結果は、クラスタリングにおいて、特に名前付きエンティティが豊富なドキュメントの場合、私たちのアプローチが従来の共起ベースの方法よりも優れていることを示しています。

要約(オリジナル)

Recent advances in machine learning, particularly Large Language Models (LLMs) such as BERT and GPT, provide rich contextual embeddings that improve text representation. However, current document clustering approaches often ignore the deeper relationships between named entities (NEs) and the potential of LLM embeddings. This paper proposes a novel approach that integrates Named Entity Recognition (NER) and LLM embeddings within a graph-based framework for document clustering. The method builds a graph with nodes representing documents and edges weighted by named entity similarity, optimized using a graph-convolutional network (GCN). This ensures a more effective grouping of semantically related documents. Experimental results indicate that our approach outperforms conventional co-occurrence-based methods in clustering, notably for documents rich in named entities.

arxiv情報

著者 Imed Keraghel,Mohamed Nadif
発行日 2024-12-19 14:03:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク