要約
パーソナリティ タイプは、人間の特性に関する関連情報を説明可能な形式で保持しているため、さまざまな分野で重要です。
多くの場合、それらは特定の環境における人の行動を適切に予測するものであり、候補者の選択からマーケティングやメンタルヘルスに至るまで応用できます。
最近、テキストからの性格特性の自動検出が計算言語学で大きな注目を集めています。
ほとんどの性格検出および分析手法は小規模なデータセットに焦点を当てており、実験的な観察が制限されることがよくあります。
このギャップを埋めるために、私たちは、マイヤーズ・ブリッグス性格タイプ (MBTI) 予測タスク用の 1 億 5,200 万のツイートと 5 万 6,000 のデータ ポイントを含む、研究コミュニティ向けに自動的にキュレーションされた最大のデータセットを収集して公開することに重点を置いています。
当社では、より適切な方法でデータ パターンを分析し、結論を推測するために、データセットに対して一連の広範な定性的および定量的研究を実行します。
興味深い分析結果が自然な直感に従っていることが多いことを示します。
また、ベースラインがデータセットに対してどのように機能するかを示すために、一連のアブレーション研究も実行します。
要約(オリジナル)
Personality types are important in various fields as they hold relevant information about the characteristics of a human being in an explainable format. They are often good predictors of a person’s behaviors in a particular environment and have applications ranging from candidate selection to marketing and mental health. Recently automatic detection of personality traits from texts has gained significant attention in computational linguistics. Most personality detection and analysis methods have focused on small datasets making their experimental observations often limited. To bridge this gap, we focus on collecting and releasing the largest automatically curated dataset for the research community which has 152 million tweets and 56 thousand data points for the Myers-Briggs personality type (MBTI) prediction task. We perform a series of extensive qualitative and quantitative studies on our dataset to analyze the data patterns in a better way and infer conclusions. We show how our intriguing analysis results often follow natural intuition. We also perform a series of ablation studies to show how the baselines perform for our dataset.
arxiv情報
著者 | Abhilash Datta,Souvic Chakraborty,Animesh Mukherjee |
発行日 | 2023-09-11 14:39:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google