Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models

要約

価値は、個人的および集団的認識、認知、および行動の中心的なドライバーです。
Schwartzの基本的な人間の価値観の理論などの価値システムは、これらの価値の階層と相互作用を描き、意思決定と社会的ダイナミクスに関する学際的な調査を可能にします。
最近、大規模な言語モデル(LLMS)の台頭は、そのとらえどころのない本質的な価値に関する懸念を提起しました。
LLM価値の評価、理解、および調整の努力が高まっているにもかかわらず、心理的に根拠のあるLLMバリューシステムは未熟なままです。
この研究では、価値システムを構築するためのスケーラブルで適応性があり、理論的に情報に基づいた方法である生成サイコレクシャルアプローチ(GPLA)を導入することにより、ギャップに対処します。
GPLAを活用すると、LLMに合わせた心理的に根拠のある5因子価値システムを提案します。
体系的な検証のために、心理的原則を最先端のAI優先事項と統合する3つのベンチマークタスクを提示します。
我々の結果は、提案された価値システムが標準的な心理学的基準を満たし、LLM値をより良くキャプチャし、LLMの安全予測を改善し、LLMアライメントを強化することを明らかにしています。

要約(オリジナル)

Values are core drivers of individual and collective perception, cognition, and behavior. Value systems, such as Schwartz’s Theory of Basic Human Values, delineate the hierarchy and interplay among these values, enabling cross-disciplinary investigations into decision-making and societal dynamics. Recently, the rise of Large Language Models (LLMs) has raised concerns regarding their elusive intrinsic values. Despite growing efforts in evaluating, understanding, and aligning LLM values, a psychologically grounded LLM value system remains underexplored. This study addresses the gap by introducing the Generative Psycho-Lexical Approach (GPLA), a scalable, adaptable, and theoretically informed method for constructing value systems. Leveraging GPLA, we propose a psychologically grounded five-factor value system tailored for LLMs. For systematic validation, we present three benchmarking tasks that integrate psychological principles with cutting-edge AI priorities. Our results reveal that the proposed value system meets standard psychological criteria, better captures LLM values, improves LLM safety prediction, and enhances LLM alignment, when compared to the canonical Schwartz’s values.

arxiv情報

著者 Haoran Ye,Tianze Zhang,Yuhang Xie,Liyuan Zhang,Yuanyi Ren,Xin Zhang,Guojie Song
発行日 2025-02-25 15:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models はコメントを受け付けていません

Sphere Neural-Networks for Rational Reasoning

要約

大規模な言語モデル(LLMS)、たとえばChatGptの成功は、惑星の人気、人間のようなコミュニケーションの能力、そして着実に改善された推論パフォーマンスによって目撃されます。
ただし、LLMSが理由であるかどうかは不明のままです。
従来のニューラルネットワークを定性的に拡張して、統計パラダイムを超えて高レベルの認知を達成することができることは、オープンな問題です。
ここでは、ベクトルから球体までの計算ビルディングブロックを一般化することにより、新しい定性的拡張を提示します。
モデルの構築と検査を通じて人間のような推論のために球体ニューラルネットワーク(SPHNNS)を提案し、人間の合理性の縮図である三段論法の推論のためにSPHNNを開発します。
Sphnnは、階層的な神経腫瘍コルモゴロフ・アーノルド幾何学GNNであり、近隣の空間関係の神経反体系遷移マップを使用して、現在の球体構成をターゲットに変換します。
Sphnnは、O(n)の最悪の計算の複雑さを伴う、トレーニングデータなしで1つのエポックで長期にわたる三段論法の推論の妥当性を決定できる最初のニューラルモデルです。
Sphnnは、時空間の推論、否定と分離による論理的推論、出来事の推論、神経反応統一、ユーモアの理解(認知の最高レベル)など、さまざまなタイプの推論に進化することができます。
これらはすべて、2つのニューラルブレードを備えた新しい種類のハーバートA.サイモンのハサミを示唆しています。
Sphnnsは、学際的なコラボレーションを大幅に強化して、2つの神経ブレードを開発し、決定論的な神経の推論と人間に結合した合理性を実現し、LLMを信頼できる心理的AIに高めます。
この研究は、球体の非ゼロ半径が、従来の深部学習システムが合理的な推論の領域に到達するのを妨げ、LLMが幻覚の沼地に閉じ込められることを妨げる不足しているコンポーネントであることを示唆しています。

要約(オリジナル)

The success of Large Language Models (LLMs), e.g., ChatGPT, is witnessed by their planetary popularity, their capability of human-like communication, and also by their steadily improved reasoning performance. However, it remains unclear whether LLMs reason. It is an open problem how traditional neural networks can be qualitatively extended to go beyond the statistic paradigm and achieve high-level cognition. Here, we present a novel qualitative extension by generalising computational building blocks from vectors to spheres. We propose Sphere Neural Networks (SphNNs) for human-like reasoning through model construction and inspection, and develop SphNN for syllogistic reasoning, a microcosm of human rationality. SphNN is a hierarchical neuro-symbolic Kolmogorov-Arnold geometric GNN, and uses a neuro-symbolic transition map of neighbourhood spatial relations to transform the current sphere configuration towards the target. SphNN is the first neural model that can determine the validity of long-chained syllogistic reasoning in one epoch without training data, with the worst computational complexity of O(N). SphNN can evolve into various types of reasoning, such as spatio-temporal reasoning, logical reasoning with negation and disjunction, event reasoning, neuro-symbolic unification, and humour understanding (the highest level of cognition). All these suggest a new kind of Herbert A. Simon’s scissors with two neural blades. SphNNs will tremendously enhance interdisciplinary collaborations to develop the two neural blades and realise deterministic neural reasoning and human-bounded rationality and elevate LLMs to reliable psychological AI. This work suggests that the non-zero radii of spheres are the missing components that prevent traditional deep-learning systems from reaching the realm of rational reasoning and cause LLMs to be trapped in the swamp of hallucination.

arxiv情報

著者 Tiansi Dong,Mateja Jamnik,Pietro Liò
発行日 2025-02-25 15:48:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Sphere Neural-Networks for Rational Reasoning はコメントを受け付けていません

GraphRank Pro+: Advancing Talent Analytics Through Knowledge Graphs and Sentiment-Enhanced Skill Profiling

要約

履歴書などの半構造化されたテキストからの情報の抽出は、多様なフォーマットスタイルと主観的なコンテンツ組織のために、長い間挑戦でした。
従来のソリューションは、特定のユースケースに合わせた特殊なロジックに依存しています。
ただし、構造化グラフ、自然言語処理(NLP)、および深い学習を活用する革新的なアプローチを提案します。
複雑なロジックをグラフ構造に抽象化することにより、生データを包括的な知識グラフに変換します。
この革新的なフレームワークにより、正確な情報抽出と洗練されたクエリが可能になります。
スキルの重みを割り当てる辞書を体系的に構築し、微妙な人材分析への道を開いています。
当社のシステムは、求職者やカリキュラムデザイナーに利益をもたらすだけでなく、求職者にターゲットを絞ったクエリベースのフィルタリングとランキング機能を強化します。

要約(オリジナル)

The extraction of information from semi-structured text, such as resumes, has long been a challenge due to the diverse formatting styles and subjective content organization. Conventional solutions rely on specialized logic tailored for specific use cases. However, we propose a revolutionary approach leveraging structured Graphs, Natural Language Processing (NLP), and Deep Learning. By abstracting intricate logic into Graph structures, we transform raw data into a comprehensive Knowledge Graph. This innovative framework enables precise information extraction and sophisticated querying. We systematically construct dictionaries assigning skill weights, paving the way for nuanced talent analysis. Our system not only benefits job recruiters and curriculum designers but also empowers job seekers with targeted query-based filtering and ranking capabilities.

arxiv情報

著者 Sirisha Velampalli,Chandrashekar Muniyappa
発行日 2025-02-25 16:07:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 05C81, cs.AI, cs.LG, I.2.7 | GraphRank Pro+: Advancing Talent Analytics Through Knowledge Graphs and Sentiment-Enhanced Skill Profiling はコメントを受け付けていません

TinySubNets: An efficient and low capacity continual learning strategy

要約

継続的な学習(CL)は、最近の機械学習研究で牽引力を獲得する非常に関連性の高い設定です。
CL作品の中で、新しいタスクが提示されているため、モデルアーキテクチャを適応させる可能性があるため、建築およびハイブリッド戦略が特に効果的です。
ただし、多くの既存のソリューションは、モデルのスパースを効率的に活用せず、利用可能なウェイトの非効率的な使用により容量飽和をもたらす傾向があり、学習可能なタスクの数を制限します。
このホワイトペーパーでは、さまざまなスパースレベル、適応量子化、および重量共有と剪定のユニークな組み合わせを通じて問題に対処する新しい建築CL戦略であるTinysubnets(TSN)を提案します。
Pruningは、モデルのパフォーマンスを維持する重みのサブセットを識別し、将来のタスクで利用可能なより少ないウェイトを利用できます。
適応量子化により、単一の重量を複数の部品に分離することができ、これを異なるタスクに割り当てることができます。
タスク間の重量共有は、容量とタスクの類似性の活用を高め、モデルの精度と容量の間のより良いトレードオフを特定できるようにします。
これらの機能により、TSNは利用可能な容量を効率的に活用し、知識移転を強化し、計算リソースの消費を削減できます。
一般的なベンチマークCLデータセットとシナリオを含む実験結果は、提案された戦略が、既存の最先端のCL戦略よりも精度の観点からより良い結果を達成することを示しています。
さらに、私たちの戦略は、モデル容量の活用が大幅に改善されることが示されています。
リリースされたコード:https://github.com/lifelonglab/tinysubnets。

要約(オリジナル)

Continual Learning (CL) is a highly relevant setting gaining traction in recent machine learning research. Among CL works, architectural and hybrid strategies are particularly effective due to their potential to adapt the model architecture as new tasks are presented. However, many existing solutions do not efficiently exploit model sparsity, and are prone to capacity saturation due to their inefficient use of available weights, which limits the number of learnable tasks. In this paper, we propose TinySubNets (TSN), a novel architectural CL strategy that addresses the issues through the unique combination of pruning with different sparsity levels, adaptive quantization, and weight sharing. Pruning identifies a subset of weights that preserve model performance, making less relevant weights available for future tasks. Adaptive quantization allows a single weight to be separated into multiple parts which can be assigned to different tasks. Weight sharing between tasks boosts the exploitation of capacity and task similarity, allowing for the identification of a better trade-off between model accuracy and capacity. These features allow TSN to efficiently leverage the available capacity, enhance knowledge transfer, and reduce computational resource consumption. Experimental results involving common benchmark CL datasets and scenarios show that our proposed strategy achieves better results in terms of accuracy than existing state-of-the-art CL strategies. Moreover, our strategy is shown to provide a significantly improved model capacity exploitation. Code released at: https://github.com/lifelonglab/tinysubnets.

arxiv情報

著者 Marcin Pietroń,Kamil Faber,Dominik Żurek,Roberto Corizzo
発行日 2025-02-25 16:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TinySubNets: An efficient and low capacity continual learning strategy はコメントを受け付けていません

Ward: Provable RAG Dataset Inference via LLM Watermarks

要約

RAGにより、LLMは外部データを簡単に組み込むことができ、コンテンツの不正使用に関するデータ所有者の懸念を提起します。
このような許可されていない使用法を検出するという課題は、標準の依存症状のままであり、隣接するフィールドのデータセットとメソッドはその研究に適していません。
このギャップを埋めるためにいくつかの措置を講じます。
まず、この問題を(ブラックボックス)ragデータセット推論(rag-di)として形式化します。
次に、ベースラインのセットとともに、RAG-DIメソッドのリアルなベンチマーク用に設計された新しいデータセットを紹介します。
最後に、データ所有者にRAG Corporaにおけるデータセットの誤用に関する厳格な統計的保証を装備するLLM透かしに基づくRAG-DIの方法であるWardを提案します。
ワードは一貫してすべてのベースラインを上回り、より高い精度、優れたクエリ効率、堅牢性を達成します。
私たちの仕事は、Rag-Diの将来の研究の基盤を提供し、LLM透かしをこの問題に対する有望なアプローチとして強調しています。

要約(オリジナル)

RAG enables LLMs to easily incorporate external data, raising concerns for data owners regarding unauthorized usage of their content. The challenge of detecting such unauthorized usage remains underexplored, with datasets and methods from adjacent fields being ill-suited for its study. We take several steps to bridge this gap. First, we formalize this problem as (black-box) RAG Dataset Inference (RAG-DI). We then introduce a novel dataset designed for realistic benchmarking of RAG-DI methods, alongside a set of baselines. Finally, we propose Ward, a method for RAG-DI based on LLM watermarks that equips data owners with rigorous statistical guarantees regarding their dataset’s misuse in RAG corpora. Ward consistently outperforms all baselines, achieving higher accuracy, superior query efficiency and robustness. Our work provides a foundation for future studies of RAG-DI and highlights LLM watermarks as a promising approach to this problem.

arxiv情報

著者 Nikola Jovanović,Robin Staab,Maximilian Baader,Martin Vechev
発行日 2025-02-25 16:22:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Ward: Provable RAG Dataset Inference via LLM Watermarks はコメントを受け付けていません

Improving Surrogate Model Robustness to Perturbations for Dynamical Systems Through Machine Learning and Data Assimilation

要約

多くの現実世界システムは、複雑な通常の微分方程式(ODE)を使用してモデル化されています。
ただし、これらのシステムの次元により、分析が困難になる可能性があります。
このような場合には、適切な直交分解(POD)などの次元削減技術を使用できます。
ただし、これらの縮小された順序モデルは、入力の摂動の影響を受けやすくなります。
機械学習とデータ同化手法を組み合わせた新しいフレームワークを提案し、サロゲートモデルを改善して、入力データの摂動を効果的に処理することを提案します。
グラフでモデル化された動的システムに関する厳密な実験を通じて、私たちのフレームワークは、入力摂動下での代理モデルの精度を大幅に改善することを実証します。
さらに、ニューラルODEを含む代替の代理モデルでのフレームワークの有効性を評価し、経験的結果は一貫してパフォーマンスの向上を示します。

要約(オリジナル)

Many real-world systems are modelled using complex ordinary differential equations (ODEs). However, the dimensionality of these systems can make them challenging to analyze. Dimensionality reduction techniques like Proper Orthogonal Decomposition (POD) can be used in such cases. However, these reduced order models are susceptible to perturbations in the input. We propose a novel framework that combines machine learning and data assimilation techniques to improving surrogate models to handle perturbations in input data effectively. Through rigorous experiments on dynamical systems modelled on graphs, we demonstrate that our framework substantially improves the accuracy of surrogate models under input perturbations. Furthermore, we evaluate the framework’s efficacy on alternative surrogate models, including neural ODEs, and the empirical results consistently show enhanced performance.

arxiv情報

著者 Abhishek Ajayakumar,Soumyendu Raha
発行日 2025-02-25 16:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG, math.OC | Improving Surrogate Model Robustness to Perturbations for Dynamical Systems Through Machine Learning and Data Assimilation はコメントを受け付けていません

WinTSR: A Windowed Temporal Saliency Rescaling Method for Interpreting Time Series Deep Learning Models

要約

複雑な時系列予測モデルの解釈は、時間ステップと時間の経過に伴う入力機能の動的関連性の間の時間的依存性のために困難です。
既存の解釈方法は、主に分類タスクに焦点を当て、最新の時系列モデルの代わりにカスタムベースラインモデルを使用して評価し、単純な合成データセットを使用し、別のモデルのトレーニングが必要になることで制限されます。
これらの制限に対処する新しい解釈方法\ textit {ウィンドウされた時間的顕著性の再スケーリング(Wintsr)}を紹介します。
WINTSRは、過去の時間ステップの間で一時的な依存関係を明示的にキャプチャし、この時間の重要性とともに機能の重要性を効率的にスケーリングします。
WINTSRは、時系列の基礎モデルを含む、さまざまなアーキテクチャの5つの最先端の深部学習モデルを使用して、最近の10の解釈技術に対してベンチマークします。
タイムシリーズの分類と回帰の両方に、3つの実際のデータセットを使用します。
当社の包括的な分析は、Wintsrが全体的なパフォーマンスにおける他のローカル解釈方法を大幅に上回ることを示しています。
最後に、最新の時系列変圧器と基礎モデルを解釈するための新しいオープンソースフレームワークを提供します。

要約(オリジナル)

Interpreting complex time series forecasting models is challenging due to the temporal dependencies between time steps and the dynamic relevance of input features over time. Existing interpretation methods are limited by focusing mostly on classification tasks, evaluating using custom baseline models instead of the latest time series models, using simple synthetic datasets, and requiring training another model. We introduce a novel interpretation method, \textit{Windowed Temporal Saliency Rescaling (WinTSR)} addressing these limitations. WinTSR explicitly captures temporal dependencies among the past time steps and efficiently scales the feature importance with this time importance. We benchmark WinTSR against 10 recent interpretation techniques with 5 state-of-the-art deep-learning models of different architectures, including a time series foundation model. We use 3 real-world datasets for both time-series classification and regression. Our comprehensive analysis shows that WinTSR significantly outperforms other local interpretation methods in overall performance. Finally, we provide a novel, open-source framework to interpret the latest time series transformers and foundation models.

arxiv情報

著者 Md. Khairul Islam,Judy Fox
発行日 2025-02-25 16:41:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | WinTSR: A Windowed Temporal Saliency Rescaling Method for Interpreting Time Series Deep Learning Models はコメントを受け付けていません

Which Contributions Deserve Credit? Perceptions of Attribution in Human-AI Co-Creation

要約

大規模な言語モデルを搭載したAIシステムは、執筆と編集のための有能なアシスタントとして機能します。
これらのタスクでは、AIシステムは共同作成パートナーとして機能し、人間のパートナーとともにアーティファクトのような創造に斬新な貢献をします。
これらのシナリオで発生する質問の1つは、AIがその貢献に対してクレジットされる程度です。
調査研究(n = 155)を通じて、ナレッジワーカーの帰属の見解を調べ、さまざまな拠出タイプ、金額、イニシアチブにわたって異なるレベルのクレジットを割り当てていることがわかりました。
人間のパートナーと比較して、AIが同等の貢献に対するクレジットが少ない一貫したパターンを観察しました。
参加者は、AIの関与を開示することが重要であると感じ、さまざまな基準を使用して、貢献の質、個人的価値、技術に関する考慮事項など、帰属の判断を下しました。
私たちの結果は、AIの貢献を共同で作成した仕事に焦点を当てた新しいアプローチを動機づけ、通知します。

要約(オリジナル)

AI systems powered by large language models can act as capable assistants for writing and editing. In these tasks, the AI system acts as a co-creative partner, making novel contributions to an artifact-under-creation alongside its human partner(s). One question that arises in these scenarios is the extent to which AI should be credited for its contributions. We examined knowledge workers’ views of attribution through a survey study (N=155) and found that they assigned different levels of credit across different contribution types, amounts, and initiative. Compared to a human partner, we observed a consistent pattern in which AI was assigned less credit for equivalent contributions. Participants felt that disclosing AI involvement was important and used a variety of criteria to make attribution judgments, including the quality of contributions, personal values, and technology considerations. Our results motivate and inform new approaches for crediting AI contributions to co-created work.

arxiv情報

著者 Jessica He,Stephanie Houde,Justin D. Weisz
発行日 2025-02-25 16:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC | Which Contributions Deserve Credit? Perceptions of Attribution in Human-AI Co-Creation はコメントを受け付けていません

MindMem: Multimodal for Predicting Advertisement Memorability Using LLMs and Deep Learning

要約

広告の競争力のある状況では、成功は、消費者、広告主、広告プラットフォーム間の複雑な相互作用を効果的にナビゲートし、活用することにかかっています。
これらの多面的な相互作用により、広告主は消費者の行動をモデル化し、ブランドリコールを強化し、広告コンテンツを調整するための戦略を最適化するように強いられます。
これらの課題に対処するために、広告の記憶性のためのマルチモーダル予測モデルであるMindMemを提示します。
テキスト、視覚、および聴覚データを統合することにより、MindMemは最先端のパフォーマンスを実現し、Lambdaで0.631、MementO10Kデータセットで0.731のスピアマンの相関係数を備えており、既存の方法を一貫して超えています。
さらに、私たちの分析では、ビデオペーシング、シーンの複雑さ、感情的な共鳴など、広告の記憶性に影響を与える重要な要因が特定されました。
これを拡大すると、MindMem-Read(MindMem駆動の再生成広告)を導入しました。これは、広告コンテンツと配置を最適化するために大規模な言語モデルベースのシミュレーションを採用して、広告の記憶性の最大74.12%の改善をもたらしました。
私たちの結果は、広告における人工知能の変革の可能性を強調し、広告主にエンゲージメントを促進し、競争力を高め、急速に進化する市場での影響を最大化するための堅牢なツールを提供します。

要約(オリジナル)

In the competitive landscape of advertising, success hinges on effectively navigating and leveraging complex interactions among consumers, advertisers, and advertisement platforms. These multifaceted interactions compel advertisers to optimize strategies for modeling consumer behavior, enhancing brand recall, and tailoring advertisement content. To address these challenges, we present MindMem, a multimodal predictive model for advertisement memorability. By integrating textual, visual, and auditory data, MindMem achieves state-of-the-art performance, with a Spearman’s correlation coefficient of 0.631 on the LAMBDA and 0.731 on the Memento10K dataset, consistently surpassing existing methods. Furthermore, our analysis identified key factors influencing advertisement memorability, such as video pacing, scene complexity, and emotional resonance. Expanding on this, we introduced MindMem-ReAd (MindMem-Driven Re-generated Advertisement), which employs Large Language Model-based simulations to optimize advertisement content and placement, resulting in up to a 74.12% improvement in advertisement memorability. Our results highlight the transformative potential of Artificial Intelligence in advertising, offering advertisers a robust tool to drive engagement, enhance competitiveness, and maximize impact in a rapidly evolving market.

arxiv情報

著者 Sepehr Asgarian,Qayam Jetha,Jouhyun Jeon
発行日 2025-02-25 17:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MindMem: Multimodal for Predicting Advertisement Memorability Using LLMs and Deep Learning はコメントを受け付けていません

Towards Mechanistic Interpretability of Graph Transformers via Attention Graphs

要約

GNNSのメッセージの通過と変圧器の自己触媒メカニズムとの数学的等価性に基づいて、グラフニューラルネットワーク(GNNS)の機械的解釈可能性とグラフトランスの新しいツールである注意グラフを紹介します。
注意グラフは、トランス層とヘッド全体に注意行列を集計し、入力ノード間で情報がどのように流れるかを説明します。
同性愛および異種ノード分類タスクの実験を通じて、ネットワークサイエンスの観点から注意グラフを分析し、次のことを見つけます。
モデルによって学んだグラフは、入力/元のグラフ構造と相関する傾向がありません。
(2)ヘテロフィラスグラフの場合、異なるグラフトランスバリエーションは、異なる情報フローパターンを利用しながら、同様のパフォーマンスを実現できます。
オープンソースコード:https://github.com/batu-el/understanding-inductive-biases-of-gnns

要約(オリジナル)

We introduce Attention Graphs, a new tool for mechanistic interpretability of Graph Neural Networks (GNNs) and Graph Transformers based on the mathematical equivalence between message passing in GNNs and the self-attention mechanism in Transformers. Attention Graphs aggregate attention matrices across Transformer layers and heads to describe how information flows among input nodes. Through experiments on homophilous and heterophilous node classification tasks, we analyze Attention Graphs from a network science perspective and find that: (1) When Graph Transformers are allowed to learn the optimal graph structure using all-to-all attention among input nodes, the Attention Graphs learned by the model do not tend to correlate with the input/original graph structure; and (2) For heterophilous graphs, different Graph Transformer variants can achieve similar performance while utilising distinct information flow patterns. Open source code: https://github.com/batu-el/understanding-inductive-biases-of-gnns

arxiv情報

著者 Batu El,Deepro Choudhury,Pietro Liò,Chaitanya K. Joshi
発行日 2025-02-25 17:15:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Towards Mechanistic Interpretability of Graph Transformers via Attention Graphs はコメントを受け付けていません