Chumor 2.0: Towards Benchmarking Chinese Humor Understanding

要約

既存のユーモアのデータセットと評価は主に英語に焦点を当てており、中国語などの英語以外の言語の文化的微妙なユーモアに関するリソースは限られています。
このギャップに対処するために、既存のユーモア データセットのサイズを超える初の中国ユーモア説明データセットである Chumor を構築しました。
Chumor は、知的に挑戦的で文化的に特殊なジョークを共有することで知られる中国の Reddit のようなプラットフォーム、Ruo Zhi Ba から情報を得ています。
直接的な思考連鎖プロンプトを通じて 10 個の LLM をテストしたところ、Chumor の精度はランダムをわずかに上回り、人間の精度をはるかに下回っており、既存の LLM に重大な課題をもたらしていることが明らかになりました。
さらに、私たちの分析では、人間による注釈付きのユーモアの説明が、GPT-4o や ERNIE-4-turbo によって生成されたものよりも大幅に優れていることが強調されています。
Chumor は https://huggingface.co/datasets/dnaihao/Chumor でリリースしています。プロジェクト ページは https://dnaihao.github.io/Chumor-dataset/ で、リーダーボードは https://huggingface.co/ です。
space/dnaihao/Chumor、コードベースは https://github.com/dnaihao/Chumor-dataset にあります。

要約(オリジナル)

Existing humor datasets and evaluations predominantly focus on English, leaving limited resources for culturally nuanced humor in non-English languages like Chinese. To address this gap, we construct Chumor, the first Chinese humor explanation dataset that exceeds the size of existing humor datasets. Chumor is sourced from Ruo Zhi Ba, a Chinese Reddit-like platform known for sharing intellectually challenging and culturally specific jokes. We test ten LLMs through direct and chain-of-thought prompting, revealing that Chumor poses significant challenges to existing LLMs, with their accuracy slightly above random and far below human. In addition, our analysis highlights that human-annotated humor explanations are significantly better than those generated by GPT-4o and ERNIE-4-turbo. We release Chumor at https://huggingface.co/datasets/dnaihao/Chumor, our project page is at https://dnaihao.github.io/Chumor-dataset/, our leaderboard is at https://huggingface.co/spaces/dnaihao/Chumor, and our codebase is at https://github.com/dnaihao/Chumor-dataset.

arxiv情報

著者 Ruiqi He,Yushu He,Longju Bai,Jiarui Liu,Zhenjie Sun,Zenghao Tang,He Wang,Hanchen Xia,Rada Mihalcea,Naihao Deng
発行日 2024-12-23 17:19:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク