CFunModel: A ‘Funny’ Language Model Capable of Chinese Humor Generation and Processing

要約

ユーモアは、毎日の言語コミュニケーションにおいて重要な役割を果たします。
大規模な言語モデル(LLM)の急速な発展により、自然言語処理は、さまざまなジャンルのテキストを理解し、生成することに大きな進歩を遂げました。
ただし、ほとんどのLLMは、中国のユーモアの生成と処理においてパフォーマンスが低下します。
この研究では、包括的な中国のユーモア関連のデータセット、The Chinese Fun Set(CFunset)を紹介します。
このデータセットは、既存の中国のユーモアデータセットを集約し、ジョーク共有で知られる中国のオンラインプラットフォームであるTieba-Jokebarから収集された20,000を超えるジョークが含まれています。
結果のコーパスは、160,000を超えるエントリで構成されています。
cfunsetを活用して、Chsined cfunset(Cfunmodel)を開発しました。これは、クロストーク応答の選択、ユーモア認識、冗談の生成など、さまざまな中国のユーモア関連のタスクを処理するために設計された最初の大規模な言語モデルです。
cfunsetはhttps://huggingface.co/datasets/zhenghanyu/cfunsetで入手でき、cfunmodelはhttps://huggingface.co/zhenghanyu/cfunmodelで入手できます。
私たちの作品のデモステーションビデオは、https://youtu.be/mosisoj66msで入手できます。

要約(オリジナル)

Humor plays a significant role in daily language communication. With the rapid development of large language models (LLMs), natural language processing has made significant strides in understanding and generating various genres of texts. However, most LLMs exhibit poor performance in generating and processing Chinese humor. In this study, we introduce a comprehensive Chinese humor-related dataset, the Chinese Fun Set (CFunSet). This dataset aggregates existing Chinese humor datasets and includes over 20,000 jokes collected from Tieba-JokeBar, a Chinese online platform known for joke sharing. The resulting corpus comprises more than 160,000 entries. Leveraging CFunSet, we developed the Chinese Fun Model (CFunModel), the first large language model designed to handle various Chinese humor-related tasks including Crosstalk Response Selection, Humor Recognition, Joke Generation, etc. Experimental results demonstrate that CFunModel outperforms popular large language models in these tasks. Our CFunSet is available at https://huggingface.co/datasets/ZhenghanYU/CFunSet and CFunModel is available at https://huggingface.co/ZhenghanYU/CFunModel. A demostration video of our work is available at https://youtu.be/MOsISOJ66Ms.

arxiv情報

著者 Zhenghan Yu,Xinyu Hu,Xiaojun Wan
発行日 2025-03-26 10:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク