要約
事前に選択したキーワードの辞書を拡張することは、データベース クエリやオンライン データ収集などの情報検索タスクにとって非常に重要です。
ここでは、ローカル グラフベースの辞書拡張 (LGDE) を提案します。これは、多様体学習とネットワーク科学のツールを使用して、シード辞書から開始してデータ駆動型のキーワードを発見する方法です。
LGDE の中心となるのは、単語埋め込みから派生した単語類似性グラフの作成と、グラフ拡散に基づくローカル コミュニティ検出のアプリケーションで、事前定義されたシード キーワードの意味的近傍を発見することです。
ローカル グラフ多様体における拡散により、単語埋め込みの複雑な非線形幾何学の探索が可能になり、意味関連のパスに基づいて単語の類似性を捉えることができます。
Reddit と Gab からのヘイトスピーチ関連投稿のコーパスでこの手法を検証し、LGDE がキーワードのリストを充実させ、直接的な単語の類似性に基づくしきい値手法よりも大幅に優れたパフォーマンスを達成することを示します。
さらに、コミュニケーション科学の実世界のユースケースを通じて、この手法の可能性を実証します。このユースケースでは、陰謀関連の辞書を拡張することで、ドメインの専門家によって収集および分析されたデータに基づいて LGDE が定量的に評価されます。
要約(オリジナル)
Expanding a dictionary of pre-selected keywords is crucial for tasks in information retrieval, such as database query and online data collection. Here we propose Local Graph-based Dictionary Expansion (LGDE), a method that uses tools from manifold learning and network science for the data-driven discovery of keywords starting from a seed dictionary. At the heart of LGDE lies the creation of a word similarity graph derived from word embeddings and the application of local community detection based on graph diffusion to discover semantic neighbourhoods of pre-defined seed keywords. The diffusion in the local graph manifold allows the exploration of the complex nonlinear geometry of word embeddings and can capture word similarities based on paths of semantic association. We validate our method on a corpus of hate speech-related posts from Reddit and Gab and show that LGDE enriches the list of keywords and achieves significantly better performance than threshold methods based on direct word similarities. We further demonstrate the potential of our method through a real-world use case from communication science, where LGDE is evaluated quantitatively on data collected and analysed by domain experts by expanding a conspiracy-related dictionary.
arxiv情報
著者 | Dominik J. Schindler,Sneha Jha,Xixuan Zhang,Kilian Buehling,Annett Heft,Mauricio Barahona |
発行日 | 2024-05-13 14:07:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google