要約
身体的、心理的、言葉による、性的、経済的、文化的など、さまざまな形での虐待は、精神的健康に悪影響を及ぼします。
しかし、ベトナムでは自然言語処理 (NLP) をこの分野に適用する研究は限られています。
したがって、私たちは、ベトナム語の物語テキスト内の虐待的なコンテンツを検出するための人による注釈付きベトナム語データセットを構築することで貢献することを目指しています。
これらのテキストは、ベトナムで人気のオンライン新聞である VnExpress から入手しました。VnExpress では、読者が虐待的な内容を含む記事を共有することがよくあります。
これらのテキスト内の不正なスパンを特定して分類することは、データセット作成時に大きな課題となりましたが、それは私たちの研究の動機にもなりました。
PhoBERT と XLM-RoBERTa をフリーズし、BiLSTM でそれらの隠れ状態を使用してデータセットの複雑さを評価することで、軽量のベースライン モデルを実験しました。
実験結果によると、PhoBERT はラベル付きおよびラベルなしの両方の不正スパン検出タスクにおいて他のモデルよりも優れています。
これらの結果は、将来の改善の可能性があることを示しています。
要約(オリジナル)
Abuse in its various forms, including physical, psychological, verbal, sexual, financial, and cultural, has a negative impact on mental health. However, there are limited studies on applying natural language processing (NLP) in this field in Vietnam. Therefore, we aim to contribute by building a human-annotated Vietnamese dataset for detecting abusive content in Vietnamese narrative texts. We sourced these texts from VnExpress, Vietnam’s popular online newspaper, where readers often share stories containing abusive content. Identifying and categorizing abusive spans in these texts posed significant challenges during dataset creation, but it also motivated our research. We experimented with lightweight baseline models by freezing PhoBERT and XLM-RoBERTa and using their hidden states in a BiLSTM to assess the complexity of the dataset. According to our experimental results, PhoBERT outperforms other models in both labeled and unlabeled abusive span detection tasks. These results indicate that it has the potential for future improvements.
arxiv情報
著者 | Nhu-Thanh Nguyen,Khoa Thi-Kim Phan,Duc-Vu Nguyen,Ngan Luu-Thuy Nguyen |
発行日 | 2023-12-13 01:36:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google