SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models

要約

大規模な言語モデル(LLM)は、オンラインコミュニティの節度、メディアコンテンツ分析、社会的推論ゲームなど、社会的に根拠のあるタスクにますます適用されています。
これらのコンテキストでの成功は、モデルの社会的推論能力、つまり社会的文脈を解釈し、他者の精神状態を推測し、提示された情報の真実性を評価する能力に依存します。
ただし、現在、LLMの社会的推論能力を包括的に評価する体系的な評価フレームワークはありません。
既存の取り組みは、多くの場合、実際のシナリオを単純化しすぎており、高度なモデルに挑戦するには基本的すぎるタスクで構成されています。
このギャップに対処するために、SocialMazeを紹介します。SocialMazeは、社会的推論を評価するために特別に設計された新しいベンチマークです。
SocialMazeには、深い推論、動的な相互作用、情報の不確実性という3つのコアの課題が体系的に組み込まれています。
ソーシャル推論ゲーム、日常生活の相互作用、デジタルコミュニティプラットフォームの3つの重要な設定にわたる6つの多様なタスクを提供します。
自動化された検証と人間の検証は、データの品質を確保するために使用されます。
私たちの評価は、いくつかの重要な洞察を明らかにしています。モデルは、動的な相互作用を処理し、一時的に進化する情報を統合する能力が大幅に異なります。
強力なチェーンの推論を備えたモデルは、表面レベルのキューを超えてより深い推論を必要とするタスクでより良いパフォーマンスを発揮します。
モデルの推論は不確実性の下で大幅に低下します。
さらに、キュレーションされた推論例にターゲットを絞った微調整が、複雑なソーシャルシナリオでモデルのパフォーマンスを大幅に改善できることを示しています。
データセットは、https://huggingface.co/datasets/mbzuai/socialmazeで公開されています

要約(オリジナル)

Large language models (LLMs) are increasingly applied to socially grounded tasks, such as online community moderation, media content analysis, and social reasoning games. Success in these contexts depends on a model’s social reasoning ability – the capacity to interpret social contexts, infer others’ mental states, and assess the truthfulness of presented information. However, there is currently no systematic evaluation framework that comprehensively assesses the social reasoning capabilities of LLMs. Existing efforts often oversimplify real-world scenarios and consist of tasks that are too basic to challenge advanced models. To address this gap, we introduce SocialMaze, a new benchmark specifically designed to evaluate social reasoning. SocialMaze systematically incorporates three core challenges: deep reasoning, dynamic interaction, and information uncertainty. It provides six diverse tasks across three key settings: social reasoning games, daily-life interactions, and digital community platforms. Both automated and human validation are used to ensure data quality. Our evaluation reveals several key insights: models vary substantially in their ability to handle dynamic interactions and integrate temporally evolving information; models with strong chain-of-thought reasoning perform better on tasks requiring deeper inference beyond surface-level cues; and model reasoning degrades significantly under uncertainty. Furthermore, we show that targeted fine-tuning on curated reasoning examples can greatly improve model performance in complex social scenarios. The dataset is publicly available at: https://huggingface.co/datasets/MBZUAI/SocialMaze

arxiv情報

著者 Zixiang Xu,Yanbo Wang,Yue Huang,Jiayi Ye,Haomin Zhuang,Zirui Song,Lang Gao,Chenxi Wang,Zhaorun Chen,Yujun Zhou,Sixian Li,Wang Pan,Yue Zhao,Jieyu Zhao,Xiangliang Zhang,Xiuying Chen
発行日 2025-05-29 17:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク