MulCogBench: A Multi-modal Cognitive Benchmark Dataset for Evaluating Chinese and English Computational Language Models

要約

近年、人間に特有と考えられていた言語能力の活用において、事前に訓練された計算言語モデルが目覚ましい進歩を遂げている。その成功により、これらのモデルが人間のように言語を表現し、処理するのかどうかが注目されている。この疑問に答えるため、本稿では中国語と英語のネイティブ参加者から収集したマルチモーダル認知ベンチマークデータセットであるMulCogBenchを提案する。このデータセットには、主観的意味評価、アイトラッキング、機能的磁気共鳴画像法(fMRI)、脳磁図(MEG)など、様々な認知データが含まれている。言語モデルと認知データの関係を評価するために、テキスト埋め込みとのパターン類似性に基づいて認知データをデコードする類似性エンコーディング分析を行った。その結果、言語モデルは人間の認知データと有意な類似性を共有し、類似性パターンはデータのモダリティと刺激の複雑さによって変調されることが示された。具体的には、言語刺激の複雑さが増すにつれて、コンテキストを考慮したモデルがコンテキストに依存しないモデルを上回る。コンテクストを考慮したモデルの浅い層は、高時間分解能のMEG信号との整合性が高いが、深い層は高空間分解能のfMRIとの類似性が高い。これらの結果は、言語モデルが脳の言語表現と微妙な関係にあることを示している。さらに、中国語と英語の結果は非常に一貫しており、言語を超えたこれらの知見の一般性を示唆している。

要約(オリジナル)

Pre-trained computational language models have recently made remarkable progress in harnessing the language abilities which were considered unique to humans. Their success has raised interest in whether these models represent and process language like humans. To answer this question, this paper proposes MulCogBench, a multi-modal cognitive benchmark dataset collected from native Chinese and English participants. It encompasses a variety of cognitive data, including subjective semantic ratings, eye-tracking, functional magnetic resonance imaging (fMRI), and magnetoencephalography (MEG). To assess the relationship between language models and cognitive data, we conducted a similarity-encoding analysis which decodes cognitive data based on its pattern similarity with textual embeddings. Results show that language models share significant similarities with human cognitive data and the similarity patterns are modulated by the data modality and stimuli complexity. Specifically, context-aware models outperform context-independent models as language stimulus complexity increases. The shallow layers of context-aware models are better aligned with the high-temporal-resolution MEG signals whereas the deeper layers show more similarity with the high-spatial-resolution fMRI. These results indicate that language models have a delicate relationship with brain language representations. Moreover, the results between Chinese and English are highly consistent, suggesting the generalizability of these findings across languages.

arxiv情報

著者 Yunhao Zhang,Xiaohan Zhang,Chong Li,Shaonan Wang,Chengqing Zong
発行日 2024-03-02 07:49:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク