要約
私たちは、オンライン テキストにおける社会的に許容されない談話 (SUD) の特徴付けと検出を研究しています。
まず、これまで最先端の機械学習 (ML) SUD 検出ソリューションで使用されてきたさまざまなオンライン ソースから手動で注釈が付けられた多種多様なテキストを含む新しいコーパスを構築して提示します。
このグローバル コンテキストにより、同じ SUD カテゴリに関する知識を異なるコンテキストから取得する SUD 分類器の一般化能力をテストできます。
この観点から、未解決の課題と未解決の研究の方向性について議論することで、(おそらく)さまざまなアノテーション様式が SUD 学習にどのような影響を与えるかを分析できます。
また、アノテーションタスクにおいてドメイン専門家をサポートできるいくつかのデータ洞察も提供します。
要約(オリジナル)
We study Socially Unacceptable Discourse (SUD) characterization and detection in online text. We first build and present a novel corpus that contains a large variety of manually annotated texts from different online sources used so far in state-of-the-art Machine learning (ML) SUD detection solutions. This global context allows us to test the generalization ability of SUD classifiers that acquire knowledge around the same SUD categories, but from different contexts. From this perspective, we can analyze how (possibly) different annotation modalities influence SUD learning by discussing open challenges and open research directions. We also provide several data insights which can support domain experts in the annotation task.
arxiv情報
著者 | Bruno Machado Carneiro,Michele Linardi,Julien Longhi |
発行日 | 2023-08-08 10:42:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google