Hashtag-Guided Low-Resource Tweet Classification

要約

ソーシャル メディアの分類タスク (ツイートのセンチメント分析、ツイートのスタンスの検出など) は、通常、ソーシャル メディアの投稿が短く、非公式で、あいまいであるため、困難です。
したがって、ツイートのトレーニングは困難であり、人間が注釈を付けた大規模なラベルを必要とし、取得には時間とコストがかかります。
このホワイト ペーパーでは、ソーシャル メディアのツイートにハッシュタグを提供すると、この問題を軽減できることがわかりました。ハッシュタグは、トピック、感情、スタンスなどのさまざまな情報に関して、短くてあいまいなツイートを充実させることができるからです。
これにより、入力ツイートに対して意味のあるハッシュタグを自動的に生成して、ツイート分類に役立つ補助信号を提供する、新しいハッシュタグ ガイド付きツイート分類モデル (HashTation) を提案する動機になります。
高品質で洞察に満ちたハッシュタグを生成するために、当社のハッシュタグ生成モデルは、コーパス全体から投稿レベルおよびエンティティ レベルの情報を取得してエンコードします。
実験は、HashTation が 7 つの低リソースのツイート分類タスクで大幅な改善を達成することを示しています。このタスクでは、限られた量のトレーニング データのみが提供されます。これは、モデルによって生成されたハッシュタグでツイートを自動的に強化することで、大規模なヒューマン ラベル付けの需要を大幅に削減できることを示しています。
データ。
さらなる分析は、HashTation がツイートとそのラベルと一致する高品質のハッシュタグを生成できることを示しています。
コードは https://github.com/shizhediao/HashTation で入手できます。

要約(オリジナル)

Social media classification tasks (e.g., tweet sentiment analysis, tweet stance detection) are challenging because social media posts are typically short, informal, and ambiguous. Thus, training on tweets is challenging and demands large-scale human-annotated labels, which are time-consuming and costly to obtain. In this paper, we find that providing hashtags to social media tweets can help alleviate this issue because hashtags can enrich short and ambiguous tweets in terms of various information, such as topic, sentiment, and stance. This motivates us to propose a novel Hashtag-guided Tweet Classification model (HashTation), which automatically generates meaningful hashtags for the input tweet to provide useful auxiliary signals for tweet classification. To generate high-quality and insightful hashtags, our hashtag generation model retrieves and encodes the post-level and entity-level information across the whole corpus. Experiments show that HashTation achieves significant improvements on seven low-resource tweet classification tasks, in which only a limited amount of training data is provided, showing that automatically enriching tweets with model-generated hashtags could significantly reduce the demand for large-scale human-labeled data. Further analysis demonstrates that HashTation is able to generate high-quality hashtags that are consistent with the tweets and their labels. The code is available at https://github.com/shizhediao/HashTation.

arxiv情報

著者 Shizhe Diao,Sedrick Scott Keh,Liangming Pan,Zhiliang Tian,Yan Song,Tong Zhang
発行日 2023-02-20 18:21:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク