Geospatial Mechanistic Interpretability of Large Language Models

要約

大規模な言語モデル(LLM)は、さまざまな自然言語処理タスクにわたって前例のない機能を実証しています。
実行可能なテキストとコードを処理して生成する能力により、多くの分野でそれらを遍在させ、知識ベースと「推論」ツールとしての展開は継続的な研究の分野であり続けています。
地理では、増え続ける文献がLLMSの地理的知識と空間的推論を実行する能力の評価に焦点を当てています。
ただし、これらのモデルの内部機能、特に地理的情報の処理方法についてはまだほとんど知られていません。
この章では、地理空間機構の解釈可能性の研究のための新しいフレームワークを確立します – 空間分析を使用して、LLMSが地理的情報を処理する方法をリバースエンジニアリングします。
私たちの目的は、これらの複雑なモデルが地理情報を処理する際に生成する内部表現の理解を促進することです。そのような言い回しが過度の擬人化ではない場合、「地理的情報についてLLMがどのように考えるか」と呼ぶものです。
まず、LLMS内の内部構造を明らかにする際の調査の使用の概要を説明します。
次に、機械的解釈可能性の分野を紹介し、LLMのポリマンティック内部表現をより解釈可能で単調な特徴に解く際の重ね合わせ仮説とまばらな自動エンコーダーの役割について議論します。
私たちの実験では、空間自己相関を使用して、プレースネームで得られた機能が地理的位置に関連する空間パターンをどのように表示し、したがって地理空間的に解釈できるかを示し、これらのモデルが地理的情報をどのように処理するかについての洞察を提供します。
私たちのフレームワークが、地理での基礎モデルの研究と使用を形作るのにどのように役立つかを議論することで最後に説明します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated unprecedented capabilities across various natural language processing tasks. Their ability to process and generate viable text and code has made them ubiquitous in many fields, while their deployment as knowledge bases and ‘reasoning’ tools remains an area of ongoing research. In geography, a growing body of literature has been focusing on evaluating LLMs’ geographical knowledge and their ability to perform spatial reasoning. However, very little is still known about the internal functioning of these models, especially about how they process geographical information. In this chapter, we establish a novel framework for the study of geospatial mechanistic interpretability – using spatial analysis to reverse engineer how LLMs handle geographical information. Our aim is to advance our understanding of the internal representations that these complex models generate while processing geographical information – what one might call ‘how LLMs think about geographic information’ if such phrasing was not an undue anthropomorphism. We first outline the use of probing in revealing internal structures within LLMs. We then introduce the field of mechanistic interpretability, discussing the superposition hypothesis and the role of sparse autoencoders in disentangling polysemantic internal representations of LLMs into more interpretable, monosemantic features. In our experiments, we use spatial autocorrelation to show how features obtained for placenames display spatial patterns related to their geographic location and can thus be interpreted geospatially, providing insights into how these models process geographical information. We conclude by discussing how our framework can help shape the study and use of foundation models in geography.

arxiv情報

著者 Stef De Sabbata,Stefano Mizzaro,Kevin Roitero
発行日 2025-05-12 15:44:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク