It is not Sexually Suggestive, It is Educative. Separating Sex Education from Suggestive Content on TikTok Videos

要約

SexTok は、(アノテーターの観点から)性的な示唆を与えるコンテンツ、性教育コンテンツ、またはそのどちらでもないとラベル付けされた TikTok 動画で構成されるマルチモーダル データセットです。
このようなデータセットは、TikTok 上の性的な示唆を与えるコンテンツと仮想性教育ビデオを区別するという課題に対処するために必要です。
子どもたちが性的示唆を与えるビデオにさらされると、子どもの発達に悪影響を及ぼすことがわかっています。
一方、特に LGBTQIA+ コミュニティにより関連性の高いテーマに関するバーチャル性教育は、非常に価値があります。
プラットフォームの現在のシステムでは、目的が異なる場合でも、両方のタイプの動画の一部が削除またはペナルティを受けます。
私たちのデータセットにはビデオ URL が含まれており、音声も転写されています。
その重要性を検証するために、ビデオを分類するための 2 つのトランスフォーマー ベースのモデルを調査します。
私たちの予備的な結果は、これらのタイプのビデオを区別する作業は学習可能ですが、困難であることを示唆しています。
これらの実験は、このデータセットが有意義であることを示唆しており、このテーマについてのさらなる研究を促しています。

要約(オリジナル)

We introduce SexTok, a multi-modal dataset composed of TikTok videos labeled as sexually suggestive (from the annotator’s point of view), sex-educational content, or neither. Such a dataset is necessary to address the challenge of distinguishing between sexually suggestive content and virtual sex education videos on TikTok. Children’s exposure to sexually suggestive videos has been shown to have adversarial effects on their development. Meanwhile, virtual sex education, especially on subjects that are more relevant to the LGBTQIA+ community, is very valuable. The platform’s current system removes or penalizes some of both types of videos, even though they serve different purposes. Our dataset contains video URLs, and it is also audio transcribed. To validate its importance, we explore two transformer-based models for classifying the videos. Our preliminary results suggest that the task of distinguishing between these types of videos is learnable but challenging. These experiments suggest that this dataset is meaningful and invites further study on the subject.

arxiv情報

著者 Enfa George,Mihai Surdeanu
発行日 2023-07-06 20:23:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 パーマリンク