Behind Closed Words: Creating and Investigating the forePLay Annotated Dataset for Polish Erotic Discourse

要約

オンライン コンテンツの急増により、特に現在のツールでは重大な限界がある英語以外のコンテキストにおいて、堅牢な検出システムに対する緊急の需要が生じています。
私たちは、エロティックなコンテンツ検出のための新しいポーランド語データセットである forePLay を紹介します。これは、曖昧さ、暴力、社会的受容不可能性の側面を含む多次元分類法を備えた 24,000 を超える注釈付き文を特徴としています。
私たちの包括的な評価では、特殊なポーランド語モデルが多言語代替モデルと比較して優れたパフォーマンスを実現し、トランスフォーマーベースのアーキテクチャが不均衡なカテゴリの処理に特に強みを発揮することを示しています。
データセットと付随する分析は、言語を意識したコンテンツモデレーションシステムを開発するための重要なフレームワークを確立するとともに、そのような機能を形態学的に複雑な言語に拡張するための重要な考慮事項を強調しています。

要約(オリジナル)

The surge in online content has created an urgent demand for robust detection systems, especially in non-English contexts where current tools demonstrate significant limitations. We present forePLay, a novel Polish language dataset for erotic content detection, featuring over 24k annotated sentences with a multidimensional taxonomy encompassing ambiguity, violence, and social unacceptability dimensions. Our comprehensive evaluation demonstrates that specialized Polish language models achieve superior performance compared to multilingual alternatives, with transformer-based architectures showing particular strength in handling imbalanced categories. The dataset and accompanying analysis establish essential frameworks for developing linguistically-aware content moderation systems, while highlighting critical considerations for extending such capabilities to morphologically complex languages.

arxiv情報

著者 Anna Kołos,Katarzyna Lorenc,Emilia Wiśnios,Agnieszka Karlińska
発行日 2025-01-07 12:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク