ViCGCN: Graph Convolutional Network with Contextualized Language Models for Social Media Mining in Vietnamese

要約

ソーシャル メディア処理は、多数のアプリケーションを使用する自然言語処理の基本的なタスクです。
ベトナムのソーシャルメディアと情報科学が急速に成長するにつれて、ベトナムのソーシャルメディア上での情報ベースのマイニングの必要性が非常に重要になっています。
しかし、最先端の研究は、ソーシャルメディアプラットフォーム上のデータの不均衡やノイズの多いデータなど、いくつかの重大な欠点に直面しています。
アンバランスとノイズは、ベトナムのソーシャルメディアテキストで対処する必要がある 2 つの重要な問題です。
グラフ畳み込みネットワークは、データのグラフ構造を利用することで、ソーシャル メディア上のテキスト分類における不均衡でノイズの多いデータの問題に対処できます。
この研究では、文脈化言語モデル (PhoBERT) とグラフベースの手法 (グラフ畳み込みネットワーク) に基づいた新しいアプローチを紹介します。
特に、提案されたアプローチである ViCGCN は、グラフ畳み込みネットワーク (GCN) の機能とコンテキスト化された埋め込みの能力を共同でトレーニングし、より多くの構文的および意味的依存関係を捕捉して、これらの欠点に対処します。
私たちのアプローチを検証するために、さまざまなベトナムのベンチマーク データセットに対する広範な実験が実施されました。
この観察は、GCN を BERTology モデルに最終層として適用すると、パフォーマンスが大幅に向上することを示しています。
さらに、実験では、ViCGCN が 3 つのベンチマーク ソーシャル メディア データセットで、BERTology モデル、BERTology と GCN の融合モデル、その他のベースライン、SOTA を含む 13 の強力なベースライン モデルよりも優れていることが実証されました。
私たちが提案する ViCGCN アプローチは、UIT-VSMEC、UIT-ViCTSD、および UIT-VSFC の 3 つのベンチマーク データセットで、多言語および単言語を含む最良のコンテキスト化言語モデルと比較して、最大 6.21%、4.61%、および 2.63% の大幅な改善を示しています。
それぞれ。
さらに、当社の統合モデル ViCGCN は、GCN モデルと統合された他の BERTology と比較して最高のパフォーマンスを実現します。

要約(オリジナル)

Social media processing is a fundamental task in natural language processing with numerous applications. As Vietnamese social media and information science have grown rapidly, the necessity of information-based mining on Vietnamese social media has become crucial. However, state-of-the-art research faces several significant drawbacks, including imbalanced data and noisy data on social media platforms. Imbalanced and noisy are two essential issues that need to be addressed in Vietnamese social media texts. Graph Convolutional Networks can address the problems of imbalanced and noisy data in text classification on social media by taking advantage of the graph structure of the data. This study presents a novel approach based on contextualized language model (PhoBERT) and graph-based method (Graph Convolutional Networks). In particular, the proposed approach, ViCGCN, jointly trained the power of Contextualized embeddings with the ability of Graph Convolutional Networks, GCN, to capture more syntactic and semantic dependencies to address those drawbacks. Extensive experiments on various Vietnamese benchmark datasets were conducted to verify our approach. The observation shows that applying GCN to BERTology models as the final layer significantly improves performance. Moreover, the experiments demonstrate that ViCGCN outperforms 13 powerful baseline models, including BERTology models, fusion BERTology and GCN models, other baselines, and SOTA on three benchmark social media datasets. Our proposed ViCGCN approach demonstrates a significant improvement of up to 6.21%, 4.61%, and 2.63% over the best Contextualized Language Models, including multilingual and monolingual, on three benchmark datasets, UIT-VSMEC, UIT-ViCTSD, and UIT-VSFC, respectively. Additionally, our integrated model ViCGCN achieves the best performance compared to other BERTology integrated with GCN models.

arxiv情報

著者 Chau-Thang Phan,Quoc-Nam Nguyen,Chi-Thanh Dang,Trong-Hop Do,Kiet Van Nguyen
発行日 2023-09-06 10:51:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク