Analyzing Narrative Processing in Large Language Models (LLMs): Using GPT4 to test BERT

要約

言語を通じて複雑な情報を送受信する能力は人間特有のものであり、伝統や文化、多彩な社会的相互作用の基礎となっている。変換器ベースの大規模言語モデル(LLM)の破壊的な導入により、言語を「理解」し生成する唯一の存在はもはや人間だけではなくなった。本研究では、神経回路網における言語処理の基本的なメカニズムを理解するためのモデルとしてLLMを使用し、人間の脳がどのように言語処理を行うかについて予測し、仮説を生み出すための最初のステップを行った。そこで我々はChatGPTを使って、10種類の物語(イソップ寓話)の7つの異なる文体バリエーションを生成した。これらの物語をオープンソースのLLM BERTの入力として使用し、BERTの隠れユニットの活性化パターンを多次元スケーリングとクラスター分析を使って分析した。その結果、隠れユニットの活性化ベクトルは、物語内容(4-5)よりもBERT(1)の初期層において、文体のバリエーションに従ってクラスタリングされることが分かった。BERTは、大規模なテキストコーパスに積み重ねられ訓練された12個の同一のビルディングブロックから構成されているにもかかわらず、異なる層は異なるタスクを実行する。これは、自己相似構造、すなわち大脳皮質の異なる領域が異なる機能を持つことができ、したがって非常に効率的な方法で言語を処理するのに適している、人間の脳の非常に有用なモデルである。提案されたアプローチは、一方ではLLMのブラックボックスを開く可能性を秘めており、他方では人間の言語処理と認知全般の根底にある神経過程を解明するさらなる一歩となるかもしれない。

要約(オリジナル)

The ability to transmit and receive complex information via language is unique to humans and is the basis of traditions, culture and versatile social interactions. Through the disruptive introduction of transformer based large language models (LLMs) humans are not the only entity to ‘understand’ and produce language any more. In the present study, we have performed the first steps to use LLMs as a model to understand fundamental mechanisms of language processing in neural networks, in order to make predictions and generate hypotheses on how the human brain does language processing. Thus, we have used ChatGPT to generate seven different stylistic variations of ten different narratives (Aesop’s fables). We used these stories as input for the open source LLM BERT and have analyzed the activation patterns of the hidden units of BERT using multi-dimensional scaling and cluster analysis. We found that the activation vectors of the hidden units cluster according to stylistic variations in earlier layers of BERT (1) than narrative content (4-5). Despite the fact that BERT consists of 12 identical building blocks that are stacked and trained on large text corpora, the different layers perform different tasks. This is a very useful model of the human brain, where self-similar structures, i.e. different areas of the cerebral cortex, can have different functions and are therefore well suited to processing language in a very efficient way. The proposed approach has the potential to open the black box of LLMs on the one hand, and might be a further step to unravel the neural processes underlying human language processing and cognition in general.

arxiv情報

著者 Patrick Krauss,Jannik Hösch,Claus Metzner,Andreas Maier,Peter Uhrig,Achim Schilling
発行日 2024-05-03 11:56:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク