Multilevel Sentence Embeddings for Personality Prediction

要約

タイトル:多段階文埋め込みによる人格予測

要約:

– 文章を多次元空間に表現するには、Sentence-BERT(SBERT)などの文章埋め込みモデルがあります。
– ただし、データが複雑な多段階構造を持つ場合、それぞれ個別にトレーニングする必要があるため、時間とコンピューティングコストが増加します。
– 我々は、文が階層的メンバーシップと極性に従ってマッピングされる方法を提案しています。
– 最初に、AdaCos損失関数を使用して上位レベルの文空間を教え、次に、主に内部レベルペアのコサイン類似度に基づいた新しい損失関数で調整します。
– この方法を、英語と日本語のTwitterデータから得られた2つの弱監督のBig Five人格データセットとベンチマークMNLIデータセットに適用しました。
– 単一モデルアプローチが複数クラス特定分類モデルよりも優れていることを示しました。

要約(オリジナル)

Representing text into a multidimensional space can be done with sentence embedding models such as Sentence-BERT (SBERT). However, training these models when the data has a complex multilevel structure requires individually trained class-specific models, which increases time and computing costs. We propose a two step approach which enables us to map sentences according to their hierarchical memberships and polarity. At first we teach the upper level sentence space through an AdaCos loss function and then finetune with a novel loss function mainly based on the cosine similarity of intra-level pairs. We apply this method to three different datasets: two weakly supervised Big Five personality dataset obtained from English and Japanese Twitter data and the benchmark MNLI dataset. We show that our single model approach performs better than multiple class-specific classification models.

arxiv情報

著者 Paolo Tirotta,Akira Yuasa,Masashi Morita
発行日 2023-05-09 20:02:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク