Bridging the Creativity Understanding Gap: Small-Scale Human Alignment Enables Expert-Level Humor Ranking in LLMs

要約

Hessel et al。
(2023)のニューヨーカー漫画キャプションコンテスト(NYCCC)に関する影響力のある作品。
彼らの研究は、ユーモアの理解においてLLMと人間の間に大きなギャップをもたらし、創造的なコンテンツを理解し、評価することがAI開発における重要な課題であることを確立しました。
ユーモアの理解を3つのコンポーネントに分解し、それぞれを体系的に改善することにより、この課題を再検討します。注釈の改善、LLM生成のユーモアの推論と説明を利用し、人間の好みデータとのターゲットアライメントを実装することで視覚的理解を強化します。
洗練されたアプローチは、キャ​​プションランキングの82.4%の精度を達成し、以前の67%のベンチマークを独力で改善し、このドメインの世界的に有名な人間の専門家のパフォーマンスを一致させます。
特に、さまざまなペルソナプロンプトを介してサブグループの好みを模倣しようとする試みは最小限の影響を示しましたが、群​​衆の好みを備えたモデルの微調整は非常に効果的であることが判明しました。
これらの調査結果は、創造的な判断におけるLLMの制限は、特定のサブグループと個人への集中的な整合を通じて効果的に対処できることを明らかにしています。
最後に、人工的な一般情報を達成するには、創造的なドメイン全体で人間の好みデータの体系的な収集が必要であるという立場を提案します。
私たちは、人間の創造性が個人的および文化的な好みに深く影響されているように、多様な人間の好みデータでLLMを訓練することが真の創造的理解を開発するために不可欠かもしれないと主張しています。

要約(オリジナル)

Large Language Models (LLMs) have shown significant limitations in understanding creative content, as demonstrated by Hessel et al. (2023)’s influential work on the New Yorker Cartoon Caption Contest (NYCCC). Their study exposed a substantial gap between LLMs and humans in humor comprehension, establishing that understanding and evaluating creative content is key challenge in AI development. We revisit this challenge by decomposing humor understanding into three components and systematically improve each: enhancing visual understanding through improved annotation, utilizing LLM-generated humor reasoning and explanations, and implementing targeted alignment with human preference data. Our refined approach achieves 82.4% accuracy in caption ranking, singificantly improving upon the previous 67% benchmark and matching the performance of world-renowned human experts in this domain. Notably, while attempts to mimic subgroup preferences through various persona prompts showed minimal impact, model finetuning with crowd preferences proved remarkably effective. These findings reveal that LLM limitations in creative judgment can be effectively addressed through focused alignment to specific subgroups and individuals. Lastly, we propose the position that achieving artificial general intelligence necessitates systematic collection of human preference data across creative domains. We advocate that just as human creativity is deeply influenced by individual and cultural preferences, training LLMs with diverse human preference data may be essential for developing true creative understanding.

arxiv情報

著者 Kuan Lok Zhou,Jiayi Chen,Siddharth Suresh,Reuben Narad,Timothy T. Rogers,Lalit K Jain,Robert D Nowak,Bob Mankoff,Jifan Zhang
発行日 2025-02-27 18:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク