SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic Specialisation for Chinese Sexism Detection in Social Media

要約

タイトル:Chineseの性差別検知のためのクロスリンガルな意味特殊化によるDomain-Aware Word Embeddings(文脈に敏感な単語埋め込み)

要約:

– 性差別検知は、特定の性別グループを標的にしたネガティブなオンラインコンテンツを軽減することを目的としています。
– しかしながら、ラベル付きの性差別に関するデータセットが限られているため、低資源言語におけるオンライン性差別を特定することは問題があります。
– 本論文では、中国語という低資源言語におけるソーシャルメディアにおける自動性差別検知のタスクに取り組みます。
– このために、新しい性差別データを収集するか、クロスリンガルな転移学習モデルを構築するのではなく、既存のデータを最大限活用するために、クロスリンガルなDomain-Awareな意味特殊化システムを開発します。
– 意味特殊化は、外部の言語知識(例:語彙意味的関係)を専門的な特徴空間に統合することにより、事前に訓練された分散単語ベクトルを改装する技術です。
– これを行うために、高資源言語(英語)から性差別の意味リソースを活用し、中国語の目標言語の事前に学習された単語ベクトルを専門的に特殊化してドメイン知識を注入します。
– 我々は、我々のフレームワークによって専門家によって特殊化された性差別単語埋め込み(SexWEs)の利点を、単語類似度の内在的評価と性差別検知の外的評価によって実証しました。
– 他の特殊化手法と中国語のベースライン単語ベクトルと比較して、我々のSexWEsは、内在的評価と外的評価の両方で平均スコアが0.033と0.064向上しました。
– SexWEsのablativeな結果と可視化も、低資源言語における単語ベクトルの改装の効果を証明しています。

要約(オリジナル)

The goal of sexism detection is to mitigate negative online content targeting certain gender groups of people. However, the limited availability of labeled sexism-related datasets makes it problematic to identify online sexism for low-resource languages. In this paper, we address the task of automatic sexism detection in social media for one low-resource language — Chinese. Rather than collecting new sexism data or building cross-lingual transfer learning models, we develop a cross-lingual domain-aware semantic specialisation system in order to make the most of existing data. Semantic specialisation is a technique for retrofitting pre-trained distributional word vectors by integrating external linguistic knowledge (such as lexico-semantic relations) into the specialised feature space. To do this, we leverage semantic resources for sexism from a high-resource language (English) to specialise pre-trained word vectors in the target language (Chinese) to inject domain knowledge. We demonstrate the benefit of our sexist word embeddings (SexWEs) specialised by our framework via intrinsic evaluation of word similarity and extrinsic evaluation of sexism detection. Compared with other specialisation approaches and Chinese baseline word vectors, our SexWEs shows an average score improvement of 0.033 and 0.064 in both intrinsic and extrinsic evaluations, respectively. The ablative results and visualisation of SexWEs also prove the effectiveness of our framework on retrofitting word vectors in low-resource languages.

arxiv情報

著者 Aiqi Jiang,Arkaitz Zubiaga
発行日 2023-03-30 21:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SI パーマリンク