Triplètoile: Extraction of Knowledge from Microblogging Text

要約

最近、科学出版物や特許などの文書からナレッジ グラフを自動的に抽出するための多数の方法とパイプラインが登場しました。
ただし、マイクロブログ投稿やニュースなどの代替テキスト ソースを組み込むためにこれらの方法を適応させることは、これらのソースに通常見られるオープンドメインのエンティティや関係をモデル化するのに苦労するため、困難であることがわかっています。
この論文では、ソーシャル メディア プラットフォーム上のマイクロ ブログ投稿からオープン ドメイン エンティティを含むナレッジ グラフを抽出するように調整された、強化された情報抽出パイプラインを提案します。
私たちのパイプラインは依存関係解析を利用し、単語埋め込みに対する階層的クラスタリングを通じて教師なしの方法でエンティティ関係を分類します。
デジタルトランスフォーメーションに関する10万ツイートのコーパスから意味トリプルを抽出するユースケースを提供し、生成されたナレッジグラフを公開します。
同じデータセットに対して 2 つの実験評価を実施しました。その結果、このシステムは 95% 以上の精度でトリプルを生成し、精度の点で約 5% の同様のパイプラインを上回り、比較的多数のトリプルを生成することがわかりました。

要約(オリジナル)

Numerous methods and pipelines have recently emerged for the automatic extraction of knowledge graphs from documents such as scientific publications and patents. However, adapting these methods to incorporate alternative text sources like micro-blogging posts and news has proven challenging as they struggle to model open-domain entities and relations, typically found in these sources. In this paper, we propose an enhanced information extraction pipeline tailored to the extraction of a knowledge graph comprising open-domain entities from micro-blogging posts on social media platforms. Our pipeline leverages dependency parsing and classifies entity relations in an unsupervised manner through hierarchical clustering over word embeddings. We provide a use case on extracting semantic triples from a corpus of 100 thousand tweets about digital transformation and publicly release the generated knowledge graph. On the same dataset, we conduct two experimental evaluations, showing that the system produces triples with precision over 95% and outperforms similar pipelines of around 5% in terms of precision, while generating a comparatively higher number of triples.

arxiv情報

著者 Vanni Zavarella,Sergio Consoli,Diego Reforgiato Recupero,Gianni Fenu,Simone Angioni,Davide Buscaldi,Danilo Dessì,Francesco Osborne
発行日 2024-08-27 09:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 68T50, cs.CE, cs.CL, cs.IR, I.2.1 パーマリンク