要約
ディープラーニング技術は、NLP 研究の分野で大きな注目を集めています。
この論文の目的は、書かれたテキストを検査することによって個人の年齢と性別を予測することです。
ブロガーの年齢と性別を予測するために、教師あり BERT ベースの分類手法を提案します。
使用されるデータセットには、ブロガーの年齢、性別、ブロガーが書いたブログのテキストの情報を含む 681284 行のデータが含まれています。
私たちのアルゴリズムを同じドメインの以前の作品と比較し、より優れた精度と F1 スコアを達成しました。
報告された年齢グループの予測の精度は 84.2%、性別の予測の精度は 86.32% でした。
この研究は、テキスト データのクラスを効率的に予測する BERT の生の機能に依存しています。
この論文は、著者の人口統計を高精度で予測する有望な機能を示しており、複数の領域に幅広く適用できる可能性があります。
要約(オリジナル)
Deep learning techniques have gained a lot of traction in the field of NLP research. The aim of this paper is to predict the age and gender of an individual by inspecting their written text. We propose a supervised BERT-based classification technique in order to predict the age and gender of bloggers. The dataset used contains 681284 rows of data, with the information of the blogger’s age, gender, and text of the blog written by them. We compare our algorithm to previous works in the same domain and achieve a better accuracy and F1 score. The accuracy reported for the prediction of age group was 84.2%, while the accuracy for the prediction of gender was 86.32%. This study relies on the raw capabilities of BERT to predict the classes of textual data efficiently. This paper shows promising capability in predicting the demographics of the author with high accuracy and can have wide applicability across multiple domains.
arxiv情報
著者 | Vishesh Thakur,Aneesh Tickoo |
発行日 | 2023-05-15 13:26:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google