要約
この研究では、トランスフォーマーベースの大規模言語モデルである BERT の内部メカニズムを、レイヤー全体で物語のコンテンツと著作スタイルをクラスター化する機能に焦点を当てて調査します。
多様な意味内容と文体のバリエーションを特徴とする GPT-4 によって開発された物語のデータセットを使用して、BERT の層ごとの活性化を分析して、局所的な神経処理のパターンを明らかにします。
主成分分析 (PCA) や多次元尺度法 (MDS) などの次元削減技術を通じて、BERT が後続の層の物語内容に基づいて、徐々にコンパクトで明確なクラスターを持つ強力なクラスター化を示すことが明らかになりました。
物語がさまざまなテキストタイプ (例: 寓話、SF、子供向けの物語) に言い換えられる場合、強力な文体クラスタリングが発生する可能性がありますが、個々の作家に特有の作家スタイルでは最小限のクラスタリングが観察されます。
これらの調査結果は、BERT が文体上の特徴よりも意味論的なコンテンツを優先していることを強調しており、その表現能力と処理階層についての洞察を提供します。
この研究は、BERT のような変換モデルがどのように言語情報をエンコードするかを理解するのに貢献し、人工知能と認知神経科学における将来の学際的研究への道を開きます。
要約(オリジナル)
This study investigates the internal mechanisms of BERT, a transformer-based large language model, with a focus on its ability to cluster narrative content and authorial style across its layers. Using a dataset of narratives developed via GPT-4, featuring diverse semantic content and stylistic variations, we analyze BERT’s layerwise activations to uncover patterns of localized neural processing. Through dimensionality reduction techniques such as Principal Component Analysis (PCA) and Multidimensional Scaling (MDS), we reveal that BERT exhibits strong clustering based on narrative content in its later layers, with progressively compact and distinct clusters. While strong stylistic clustering might occur when narratives are rephrased into different text types (e.g., fables, sci-fi, kids’ stories), minimal clustering is observed for authorial style specific to individual writers. These findings highlight BERT’s prioritization of semantic content over stylistic features, offering insights into its representational capabilities and processing hierarchy. This study contributes to understanding how transformer models like BERT encode linguistic information, paving the way for future interdisciplinary research in artificial intelligence and cognitive neuroscience.
arxiv情報
著者 | Awritrojit Banerjee,Achim Schilling,Patrick Krauss |
発行日 | 2025-01-14 12:01:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google