TalkUp: A Novel Dataset Paving the Way for Understanding Empowering Language


これらの状況では言語テクノロジーがますます普及していますが、エンパワーメントは NLP では研究されておらず、さらに、その微妙で暗黙的な性質のため、運用化するのは本質的に困難です。
次に、エンパワーメント、これらの投稿が読者にエンパワーメントを与える理由、投稿者と読者の社会的関係についてラベル付けされた Reddit 投稿の新しいデータセットをクラウドソーシングします。
私たちの予備分析では、TalkUp と呼ばれるこのデータセットを使用して、力を与える言語と力を失わせる言語を捉える言語モデルをトレーニングできることがわかりました。
より広く言えば、現実世界の言語には多義性と多様な解釈が豊富に含まれているため、TalkUp は含意、前提、社会的文脈が言語の意味にどのような影響を与えるかを調査する手段を提供します。


Empowering language is important in many real-world contexts, from education to workplace dynamics to healthcare. Though language technologies are growing more prevalent in these contexts, empowerment has not been studied in NLP, and moreover, it is inherently challenging to operationalize because of its subtle, implicit nature. This work presents the first computational exploration of empowering language. We first define empowerment detection as a new task, grounding it in linguistic and social psychology literature. We then crowdsource a novel dataset of Reddit posts labeled for empowerment, reasons why these posts are empowering to readers, and the social relationships between posters and readers. Our preliminary analyses show that this dataset, which we call TalkUp, can be used to train language models that capture empowering and disempowering language. More broadly, as it is rich with the ambiguities and diverse interpretations of real-world language, TalkUp provides an avenue to explore implication, presuppositions, and how social context influences the meaning of language.


著者 Lucille Njoo,Chan Young Park,Octavia Stappart,Marvin Thielk,Yi Chu,Yulia Tsvetkov
発行日 2023-05-23 17:55:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク