A Deep Learning Approach to Language-independent Gender Prediction on Twitter


この研究では、ユーザーのツイートのテキストから抽出された言語に依存しない特徴に基づいて Twitter ユーザーの性別を予測するために行われた一連の実験を紹介します。
実験は、ポルトガル語、フランス語、オランダ語、英語、ドイツ語、イタリア語の 6 つの異なる言語のユーザーが書いたツイートを含むバージョンの TwiSty データセットで実行されました。
ロジスティック回帰 (LR)、および逆伝播を伴うフィードフォワード ニューラル ネットワーク (FFNN) を使用して、インターリンガル (IL) とクロスリンガル (CL) という 2 つの異なる設定でモデルを構築しました。
IL 設定では、トレーニングとテストは同じ言語で実行されましたが、CL では、イタリア語とドイツ語のデータセットは確保されてテスト セットとしてのみ使用され、残りはトレーニング セットと開発セットを構成するために結合されました。
IL では、最高の精度スコアは LR に属しますが、CL では、3 つの隠れ層を持つ FFNN が最高のスコアをもたらします。
結果は、トレーニング セットのサイズが小さい場合、ニューラル ネットワーク ベースのモデルが従来のモデルよりもパフォーマンスが低いことを示しています。


This work presents a set of experiments conducted to predict the gender of Twitter users based on language-independent features extracted from the text of the users’ tweets. The experiments were performed on a version of TwiSty dataset including tweets written by the users of six different languages: Portuguese, French, Dutch, English, German, and Italian. Logistic regression (LR), and feed-forward neural networks (FFNN) with back-propagation were used to build models in two different settings: Inter-Lingual (IL) and Cross-Lingual (CL). In the IL setting, the training and testing were performed on the same language whereas in the CL, Italian and German datasets were set aside and only used as test sets and the rest were combined to compose training and development sets. In the IL, the highest accuracy score belongs to LR whereas in the CL, FFNN with three hidden layers yields the highest score. The results show that neural network based models underperform traditional models when the size of the training set is small; however, they beat traditional models by a non-trivial margin, when they are fed with large enough data. Finally, the feature analysis confirms that men and women have different writing styles independent of their language.


著者 Reyhaneh Hashempour,Barbara Plank,Aline Villavicencio,Renato Cordeiro de Amorim
発行日 2024-11-29 14:26:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク