Thematic context vector association based on event uncertainty for Twitter

要約

【タイトル】Twitterのイベント不確実性に基づくテーマ的文脈ベクトルの関連付け

【要約】
– テキストマイニングにおいて、キーワードの抽出は重要だが、Twitterのデータにおいては、キーワードを関連づけることが課題となっている。
– これは、言語の非公式性による問題として挙げられる。つまり、スペルミスや略語、曖昧な用語が織り交ぜられているため、現在のシステムではパターンまたはイベントに基づいてキーワードを抽出する必要がある。
– そこで本研究では、データ関連付けを利用してイベントに関連するテーマ的キーワードを抽出する。テーマ的文脈には、提案されたシステムの不確実性原理に基づいて決定された不確実性がある。
– テーマ的文脈は、確実あるいは不確実であることを示すテーマ的文脈ベクトルによって評価される。本システムは、Twitter COVID-19データセットでテストされ、効果的であることが証明された。
– システムは、テストデータセットからイベント固有のテーマ的文脈ベクトルを抽出し、ランキングすることができる。抽出されたテーマ的文脈ベクトルは、TFおよびTF-IDFといった最新技術法に比べて、シルエット係数を0.5%向上する。
– テーマ的文脈ベクトルは、サイバースターや皮肉や比喩表現の検出など、他のアプリケーションにも利用できる。

要約(オリジナル)

Keyword extraction is a crucial process in text mining. The extraction of keywords with respective contextual events in Twitter data is a big challenge. The challenging issues are mainly because of the informality in the language used. The use of misspelled words, acronyms, and ambiguous terms causes informality. The extraction of keywords with informal language in current systems is pattern based or event based. In this paper, contextual keywords are extracted using thematic events with the help of data association. The thematic context for events is identified using the uncertainty principle in the proposed system. The thematic contexts are weighed with the help of vectors called thematic context vectors which signifies the event as certain or uncertain. The system is tested on the Twitter COVID-19 dataset and proves to be effective. The system extracts event-specific thematic context vectors from the test dataset and ranks them. The extracted thematic context vectors are used for the clustering of contextual thematic vectors which improves the silhouette coefficient by 0.5% than state of art methods namely TF and TF-IDF. The thematic context vector can be used in other applications like Cyberbullying, sarcasm detection, figurative language detection, etc.

arxiv情報

著者 Vaibhav Khatavkar,Swapnil Mane,Parag Kulkarni
発行日 2023-04-04 00:13:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク