要約
タイトル: 中国語の攻撃的言語検出のためのクロスカルチャー転移学習
要約:
-攻撃的言語の検出は困難なタスクである。
-異なる文化や言語間の一般化は、語彙、文法、意味論的な違いに加えて、文化的な規範や感受性など、この文脈で特に重要な実用的な面でも大きく異なるため、さらに困難である。
-この論文では、中国語の攻撃的言語検出に焦点を当て、異なる文化的背景(特に韓国語と英語)から攻撃的言語検出データを転移学習して、その影響を調査することを目的としている。
-文化的に特定のバイアスが攻撃的であると考えられるものの転移可能性に負の影響を与えることが分かり、多様な文化データでトレーニングされたLM(言語モデル)は、中国語の攻撃的言語検出に異なる特徴を持っていることが分かった。
-しかし、小数点学習のシナリオでは、限られたリソースで英語以外の攻撃的な言語の検出に有望な展望が示されている。
-当社の調査結果は、攻撃的な言語の検出を改善し、包括的なデジタル空間を促進するためのクロスカルチャー転移学習の重要性を強調しています。
要約(オリジナル)
Detecting offensive language is a challenging task. Generalizing across different cultures and languages becomes even more challenging: besides lexical, syntactic and semantic differences, pragmatic aspects such as cultural norms and sensitivities, which are particularly relevant in this context, vary greatly. In this paper, we target Chinese offensive language detection and aim to investigate the impact of transfer learning using offensive language detection data from different cultural backgrounds, specifically Korean and English. We find that culture-specific biases in what is considered offensive negatively impact the transferability of language models (LMs) and that LMs trained on diverse cultural data are sensitive to different features in Chinese offensive language detection. In a few-shot learning scenario, however, our study shows promising prospects for non-English offensive language detection with limited resources. Our findings highlight the importance of cross-cultural transfer learning in improving offensive language detection and promoting inclusive digital spaces.
arxiv情報
著者 | Li Zhou,Laura Cabello,Yong Cao,Daniel Hershcovich |
発行日 | 2023-03-31 09:50:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI