要約
自然言語処理では、リソースと既存のデータセットの品質が限られているため、ユーモアの生成は困難なタスクです。
利用可能なユーモア言語リソースには毒性や重複があることが多く、堅牢なモデルをトレーニングする効果が制限されます。
この論文は、さまざまな情報源から収集された英語とロシア語のジョークを集めた、部分的に注釈が付けられた毒性フィルタリングされた特殊なコーパスである CleanComedy を提案します。
私たちは、さまざまなジョーク グループにおけるユーモアと毒性レベルの調査を通じて、データ フィルタリング アプローチの有効性を研究しています。
さらに、人間が書いたジョークと、CleanComedy データセットでトレーニングされたベースライン モデルなどの生成ジョークのさまざまなグループを比較することで、コンピューターによるユーモア生成の進歩を研究しています。
要約(オリジナル)
Humor generation is a challenging task in natural language processing due to limited resources and the quality of existing datasets. Available humor language resources often suffer from toxicity and duplication, limiting their effectiveness for training robust models. This paper proposes CleanComedy, a specialized, partially annotated toxicity-filtered corpus of English and Russian jokes collected from various sources. We study the effectiveness of our data filtering approach through a survey on humor and toxicity levels in various joke groups. In addition, we study advances in computer humor generation by comparing jokes written by humans with various groups of generative jokes, including our baseline models trained on the CleanComedy datasets.
arxiv情報
著者 | Dmitry Vikhorev,Daria Galimzianova,Svetlana Gorovaia,Elizaveta Zhemchuzhina,Ivan P. Yamshchikov |
発行日 | 2024-12-12 11:57:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google