GraphXAIN: Narratives to Explain Graph Neural Networks

要約

グラフニューラルネットワーク(GNNS)は、グラフ構造データの機械学習の強力な手法ですが、解釈可能性に課題をもたらします。
既存のGNN説明方法は通常、サブグラフや特徴の重要性スコアなどの技術的な出力を生成します。これは、非DATA科学者が理解し、それによって説明の目的に違反することが困難です。
最近の説明可能なAI(XAI)の研究に動機付けられているため、GNNの予測を説明する自然言語の物語を生成する方法であるGraphXainを提案します。
GraphXainは、大規模な言語モデル(LLM)を使用して説明サブグラフを変換し、重要性のスコアをGNN意思決定プロセスの一貫したストーリーのような説明に翻訳するモデルおよび説明型の方法です。
実際のデータセットの評価は、グラフの説明を改善するGraphxainの能力を示しています。
機械学習の研究者と実践者の調査では、GraphXainがモデル予測の通信のための理解可能性、満足度、説得力、および適合性という4つの説明可能性の次元を強化することが明らかになりました。
別のグラフ説明方法と組み合わせると、GraphXainは信頼性、洞察、自信、使いやすさをさらに改善します。
特に、参加者の95%がGraphxainがGNN説明方法に貴重な追加であることを発見しました。
自然言語の物語を組み込むことにより、私たちのアプローチは、より明確で効果的な説明を提供することにより、グラフの実践者と非専門家の両方のユーザーの両方にサービスを提供します。

要約(オリジナル)

Graph Neural Networks (GNNs) are a powerful technique for machine learning on graph-structured data, yet they pose challenges in interpretability. Existing GNN explanation methods usually yield technical outputs, such as subgraphs and feature importance scores, that are difficult for non-data scientists to understand and thereby violate the purpose of explanations. Motivated by recent Explainable AI (XAI) research, we propose GraphXAIN, a method that generates natural language narratives explaining GNN predictions. GraphXAIN is a model- and explainer-agnostic method that uses Large Language Models (LLMs) to translate explanatory subgraphs and feature importance scores into coherent, story-like explanations of GNN decision-making processes. Evaluations on real-world datasets demonstrate GraphXAIN’s ability to improve graph explanations. A survey of machine learning researchers and practitioners reveals that GraphXAIN enhances four explainability dimensions: understandability, satisfaction, convincingness, and suitability for communicating model predictions. When combined with another graph explainer method, GraphXAIN further improves trustworthiness, insightfulness, confidence, and usability. Notably, 95% of participants found GraphXAIN to be a valuable addition to the GNN explanation method. By incorporating natural language narratives, our approach serves both graph practitioners and non-expert users by providing clearer and more effective explanations.

arxiv情報

著者 Mateusz Cedro,David Martens
発行日 2025-02-12 15:14:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | GraphXAIN: Narratives to Explain Graph Neural Networks はコメントを受け付けていません

Enhancing Auto-regressive Chain-of-Thought through Loop-Aligned Reasoning

要約

Chain-Of-Thought(COT)プロンプトは、言語モデルの推論能力を高めるための強力な手法として浮上しています。
ただし、長くて正しいコットの軌跡を生成することは困難です。
最近の研究では、ループされたトランスが顕著な長さの一般化能力を持っていることが実証されていますが、それらの一般性と適応性は、自動再帰ソリューションの代替として機能することを妨げています。
ループトランスの強度をよりよく活用するために、リレーを提案します(ループアライメントを繰り返し推論します)。
具体的には、チェーンオブ考え(COT)の推論の手順をループイテレーションで整列させ、ループトランスのトレーニング中に中間監督を適用します。
この追加の反復ごとの監督により、ループされた変圧器の長さの一般化に対する能力を保持するだけでなく、目に見えないデータのCOT推論ステップを予測することもできます。
したがって、このループされたトランスを活用して、トレーニング長を超える複雑な問題の正確な推論チェーンを生成し、自動回帰モデルを微調整するために使用されます。
私たちは広範な実験を実施し、結果は私たちのアプローチの有効性を実証し、自己回帰モデルのパフォーマンスを大幅に改善します。
コードはhttps://github.com/qifanyu/relayでリリースされます。

要約(オリジナル)

Chain-of-Thought (CoT) prompting has emerged as a powerful technique for enhancing language model’s reasoning capabilities. However, generating long and correct CoT trajectories is challenging. Recent studies have demonstrated that Looped Transformers possess remarkable length generalization capabilities, but their limited generality and adaptability prevent them from serving as an alternative to auto-regressive solutions. To better leverage the strengths of Looped Transformers, we propose RELAY (REasoning through Loop Alignment iterativelY). Specifically, we align the steps of Chain-of-Thought (CoT) reasoning with loop iterations and apply intermediate supervision during the training of Looped Transformers. This additional iteration-wise supervision not only preserves the Looped Transformer’s ability for length generalization but also enables it to predict CoT reasoning steps for unseen data. Therefore, we leverage this Looped Transformer to generate accurate reasoning chains for complex problems that exceed the training length, which will then be used to fine-tune an auto-regressive model. We conduct extensive experiments, and the results demonstrate the effectiveness of our approach, with significant improvements in the performance of the auto-regressive model. Code will be released at https://github.com/qifanyu/RELAY.

arxiv情報

著者 Qifan Yu,Zhenyu He,Sijie Li,Xun Zhou,Jun Zhang,Jingjing Xu,Di He
発行日 2025-02-12 15:17:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Enhancing Auto-regressive Chain-of-Thought through Loop-Aligned Reasoning はコメントを受け付けていません

Shadow Program Inversion with Differentiable Planning: A Framework for Unified Robot Program Parameter and Trajectory Optimization

要約

このペーパーでは、高レベルのタスク目標とモーションレベルの制約の両方に関してロボットプログラムを最適化できる新しい1次オプティマイザーであるSPI-DPを紹介します。
そのために、シリアルN-DOF運動学の微分可能な衝突フリーモーションプランナーであるDGPMP2-NDを導入し、一般的なパラメーター化されたロボットプログラム表現のための反復的な勾配ベースの最適化アプローチに統合します。
SPI-DPは、サイクル時間や滑らかさなどの目的に関して、計画された軌跡とプログラムパラメーターの1次最適化を可能にします。
衝突の制約は、人間が最適化されたプログラムを理解、変更、または認証できるようにします。
2つの実践的な家庭用アプリケーションと産業用アプリケーションに関する包括的な評価を提供しています。

要約(オリジナル)

This paper presents SPI-DP, a novel first-order optimizer capable of optimizing robot programs with respect to both high-level task objectives and motion-level constraints. To that end, we introduce DGPMP2-ND, a differentiable collision-free motion planner for serial N-DoF kinematics, and integrate it into an iterative, gradient-based optimization approach for generic, parameterized robot program representations. SPI-DP allows first-order optimization of planned trajectories and program parameters with respect to objectives such as cycle time or smoothness subject to e.g. collision constraints, while enabling humans to understand, modify or even certify the optimized programs. We provide a comprehensive evaluation on two practical household and industrial applications.

arxiv情報

著者 Benjamin Alt,Claudius Kienle,Darko Katic,Rainer Jäkel,Michael Beetz
発行日 2025-02-12 15:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.AI, cs.RO, I.2 | Shadow Program Inversion with Differentiable Planning: A Framework for Unified Robot Program Parameter and Trajectory Optimization はコメントを受け付けていません

Representing Rule-based Chatbots with Transformers

要約

流動的で自然な響きの会話を実施するために、変圧器がどのような内部メカニズムを使用する可能性がありますか?
以前の作業は、トランスがリストの並べ替えや正式な言語の認識など、さまざまな合成タスクをどのように解決できるかを構築することで説明していますが、このアプローチを会話設定に拡張する方法は不明のままです。
この作業では、クラシックルールベースのチャットボットであるElizaを使用して、トランスベースのチャットボットの正式な機械的分析の設定として提案します。
Elizaは、ローカルパターンマッチングや長期的な対話状態追跡など、会話の重要な側面を正式にモデル化することができます。
最初に、エリザチャットボットを実装するトランスの理論的構造を提示します。
以前の構造、特に有限状態のオートマトンをシミュレートするための構造に基づいて、より簡単なメカニズムを構成し、拡張してより洗練された動作を生成できることを示します。
次に、合成的に生成されたEliza会話で訓練された変圧器の経験的分析のセットを実施します。
私たちの分析は、これらのモデルが好む傾向があるメカニズムの種類を示しています。例えば、モデルは、より正確で位置ベースのコピーメカニズムよりも誘導ヘッドメカニズムを支持しています。
中間世代を使用して、暗黙のスクラッチパッドや考え方に似た再発性データ構造をシミュレートします。
全体として、ニューラルチャットボットと解釈可能な象徴的なメカニズムとの間に明示的なつながりを描くことにより、我々の結果は、会話エージェントの機構分析のための新しいフレームワークを提供します。

要約(オリジナル)

What kind of internal mechanisms might Transformers use to conduct fluid, natural-sounding conversations? Prior work has illustrated by construction how Transformers can solve various synthetic tasks, such as sorting a list or recognizing formal languages, but it remains unclear how to extend this approach to a conversational setting. In this work, we propose using ELIZA, a classic rule-based chatbot, as a setting for formal, mechanistic analysis of Transformer-based chatbots. ELIZA allows us to formally model key aspects of conversation, including local pattern matching and long-term dialogue state tracking. We first present a theoretical construction of a Transformer that implements the ELIZA chatbot. Building on prior constructions, particularly those for simulating finite-state automata, we show how simpler mechanisms can be composed and extended to produce more sophisticated behavior. Next, we conduct a set of empirical analyses of Transformers trained on synthetically generated ELIZA conversations. Our analysis illustrates the kinds of mechanisms these models tend to prefer–for example, models favor an induction head mechanism over a more precise, position-based copying mechanism; and using intermediate generations to simulate recurrent data structures, akin to an implicit scratchpad or Chain-of-Thought. Overall, by drawing an explicit connection between neural chatbots and interpretable, symbolic mechanisms, our results provide a new framework for the mechanistic analysis of conversational agents.

arxiv情報

著者 Dan Friedman,Abhishek Panigrahi,Danqi Chen
発行日 2025-02-12 15:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Representing Rule-based Chatbots with Transformers はコメントを受け付けていません

Revisiting 3D LLM Benchmarks: Are We Really Testing 3D Capabilities?

要約

この作業では、3D LLM評価における「2Dチーティング」問題を特定します。ここでは、これらのタスクは、ポイントクラウドのレンダリングされた画像を使用してVLMSによって簡単に解決され、3D LLMSのユニークな3D機能の効果的な評価を公開します。
複数の3D LLMベンチマークにわたってVLMパフォーマンスをテストし、これを参照として使用して、本物の3D理解をより適切に評価するための原則を提案します。
また、3D LLMを評価する際に、3D能力を1Dまたは2Dの側面から明示的に分離することも提唱しています。

要約(オリジナル)

In this work, we identify the ‘2D-Cheating’ problem in 3D LLM evaluation, where these tasks might be easily solved by VLMs with rendered images of point clouds, exposing ineffective evaluation of 3D LLMs’ unique 3D capabilities. We test VLM performance across multiple 3D LLM benchmarks and, using this as a reference, propose principles for better assessing genuine 3D understanding. We also advocate explicitly separating 3D abilities from 1D or 2D aspects when evaluating 3D LLMs.

arxiv情報

著者 Jiahe Jin,Yanheng He,Mingyan Yang
発行日 2025-02-12 15:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Revisiting 3D LLM Benchmarks: Are We Really Testing 3D Capabilities? はコメントを受け付けていません

Do Large Code Models Understand Programming Concepts? Counterfactual Analysis for Code Predicates

要約

テキスト生成での大規模な言語モデルの成功により、コード生成とコーディングタスクでも良くなりました。
多くの作業により、コードの完了や編集などのタスクに関する驚くべきパフォーマンスが実証されていますが、その理由はまだ不明です。
私たちは、基礎となるプログラムの論理的構成要素をどの程度自動回帰モデルを理解しているかを探ることにより、このギャップを埋めるのを助けます。
大規模なコードモデルがプログラミングの概念を理解しているかどうかを評価するための反事実的テストフレームワークとして、プログラミングコンセプト述語(CACP)の反事実分析を提案します。
モデルへのブラックボックスアクセスのみを使用すると、CACPを使用して、4つの異なるプログラミング概念の10の一般的な大規模コードモデルを評価します。
私たちの調査結果は、現在のモデルには、データフローや制御フローなどの概念の理解がないことを示唆しています。

要約(オリジナル)

Large Language Models’ success on text generation has also made them better at code generation and coding tasks. While a lot of work has demonstrated their remarkable performance on tasks such as code completion and editing, it is still unclear as to why. We help bridge this gap by exploring to what degree auto-regressive models understand the logical constructs of the underlying programs. We propose Counterfactual Analysis for Programming Concept Predicates (CACP) as a counterfactual testing framework to evaluate whether Large Code Models understand programming concepts. With only black-box access to the model, we use CACP to evaluate ten popular Large Code Models for four different programming concepts. Our findings suggest that current models lack understanding of concepts such as data flow and control flow.

arxiv情報

著者 Ashish Hooda,Mihai Christodorescu,Miltiadis Allamanis,Aaron Wilson,Kassem Fawaz,Somesh Jha
発行日 2025-02-12 15:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PL, cs.SE | Do Large Code Models Understand Programming Concepts? Counterfactual Analysis for Code Predicates はコメントを受け付けていません

Measuring Diversity in Synthetic Datasets

要約

大規模な言語モデル(LLM)は、テキスト分類や要約など、さまざまな自然言語処理(NLP)タスクの合成データセットを生成するために広く採用されています。
ただし、これらの合成データセットの多様性を正確に測定します。これは、堅牢なモデルパフォーマンスのために重要な側面であり、重要な課題です。
この論文では、分類の観点から合成データセットの多様性を測定するための新しい方法であるDCScoreを紹介します。
具体的には、DCSCOREはサンプル分類タスクとして多様性評価を定式化し、サンプル間の相互関係を活用します。
さらに、DCScoreによって満たされた多様性関連の公理の理論的検証を提供し、原則的な多様性評価方法としての役割を強調します。
合成データセットでの実験結果は、DCScoreが評価されたデータセットの複数の多様性の疑似真実とより強い相関を享受し、その有効性を強調することを明らかにしています。
さらに、経験的証拠と理論的証拠の両方が、DCScoreが既存のアプローチと比較して計算コストを大幅に削減することを示しています。
コードは、https://github.com/bluewhalelab/dcscoreで入手できます。

要約(オリジナル)

Large language models (LLMs) are widely adopted to generate synthetic datasets for various natural language processing (NLP) tasks, such as text classification and summarization. However, accurately measuring the diversity of these synthetic datasets-an aspect crucial for robust model performance-remains a significant challenge. In this paper, we introduce DCScore, a novel method for measuring synthetic dataset diversity from a classification perspective. Specifically, DCScore formulates diversity evaluation as a sample classification task, leveraging mutual relationships among samples. We further provide theoretical verification of the diversity-related axioms satisfied by DCScore, highlighting its role as a principled diversity evaluation method. Experimental results on synthetic datasets reveal that DCScore enjoys a stronger correlation with multiple diversity pseudo-truths of evaluated datasets, underscoring its effectiveness. Moreover, both empirical and theoretical evidence demonstrate that DCScore substantially reduces computational costs compared to existing approaches. Code is available at: https://github.com/BlueWhaleLab/DCScore.

arxiv情報

著者 Yuchang Zhu,Huizhe Zhang,Bingzhe Wu,Jintang Li,Zibin Zheng,Peilin Zhao,Liang Chen,Yatao Bian
発行日 2025-02-12 15:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Measuring Diversity in Synthetic Datasets はコメントを受け付けていません

FedMHO: Heterogeneous One-Shot Federated Learning Towards Resource-Constrained Edge Devices

要約

Federated Learning(FL)は、エッジコンピューティングシナリオでますます採用されています。このシナリオでは、多くの異種クライアントが制約されたリソースまたは十分なリソースの下で動作します。
従来のFLでの反復トレーニングプロセスは、リソースに制約のあるエッジデバイスには友好的ではない重要な計算と通信オーバーヘッドを導入します。
ワンショットFLは、通信オーバーヘッドを緩和するための有望なアプローチとして浮上しており、モデル分解FLは、クライアント間の多様なコンピューティングリソースの問題を解決します。
ただし、既存の方法は、モデル分解のワンショットFLを効果的に管理する上で課題に直面しており、多くの場合、不十分なグローバルモデルのパフォーマンスまたは補助データセットへの依存につながります。
これらの課題に対処するために、FedMHOという名前の新しいFLフレームワークを提案します。FeDMHOは、リソースが十分に不十分なクライアントとリソースに制約のあるデバイスの軽量生成モデルに関する深い分類モデルを活用します。
サーバー側では、FEDMHOには、データ生成と知識の融合を含む2段階のプロセスが含まれます。
さらに、FedMHO-MDとFEDMHO-SDを導入して、知識融合段階での知識浸透の問題を軽減し、合成サンプルの品質を改善するための監視されていないデータ最適化ソリューションを緩和します。
包括的な実験は、さまざまな実験セットアップで最先端のベースラインよりも優れているため、私たちの方法の有効性を示しています。

要約(オリジナル)

Federated Learning (FL) is increasingly adopted in edge computing scenarios, where a large number of heterogeneous clients operate under constrained or sufficient resources. The iterative training process in conventional FL introduces significant computation and communication overhead, which is unfriendly for resource-constrained edge devices. One-shot FL has emerged as a promising approach to mitigate communication overhead, and model-heterogeneous FL solves the problem of diverse computing resources across clients. However, existing methods face challenges in effectively managing model-heterogeneous one-shot FL, often leading to unsatisfactory global model performance or reliance on auxiliary datasets. To address these challenges, we propose a novel FL framework named FedMHO, which leverages deep classification models on resource-sufficient clients and lightweight generative models on resource-constrained devices. On the server side, FedMHO involves a two-stage process that includes data generation and knowledge fusion. Furthermore, we introduce FedMHO-MD and FedMHO-SD to mitigate the knowledge-forgetting problem during the knowledge fusion stage, and an unsupervised data optimization solution to improve the quality of synthetic samples. Comprehensive experiments demonstrate the effectiveness of our methods, as they outperform state-of-the-art baselines in various experimental setups.

arxiv情報

著者 Dezhong Yao,Yuexin Shi,Tongtong Liu,Zhiqiang Xu
発行日 2025-02-12 15:54:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG | FedMHO: Heterogeneous One-Shot Federated Learning Towards Resource-Constrained Edge Devices はコメントを受け付けていません

Algorithmic Persuasion Through Simulation

要約

私たちは、送信者が製品の購入などのバイナリアクションを実行するように受信者に説得したいベイジアン説得ゲームを勉強します。
送信者は、製品の品質など、世界の(実際の)世界の状態について通知されますが、受信者の信念とユーティリティに関する情報は限られています。
顧客調査、ユーザー調査、およびAIの最近の進歩に動機付けられているため、受信者の動作をシミュレートするOracleを照会することにより、送信者が受信者についてさらに学ぶことができます。
固定数のクエリの後、送信者はメッセージングポリシーにコミットし、受信者は受け取ったメッセージを考慮して予想されるユーティリティを最大化するアクションを実行します。
受信機の種類を介した配布を考えると、送信者の最適なメッセージングポリシーを特徴付けます。
次に、このゲームで送信者の予想されるユーティリティを最適化する多項式時間クエリアルゴリズムを設計します。
また、おおよそのオラクル、より一般的なクエリ構造、およびコストの高いクエリを検討します。

要約(オリジナル)

We study a Bayesian persuasion game where a sender wants to persuade a receiver to take a binary action, such as purchasing a product. The sender is informed about the (real-valued) state of the world, such as the quality of the product, but only has limited information about the receiver’s beliefs and utilities. Motivated by customer surveys, user studies, and recent advances in AI, we allow the sender to learn more about the receiver by querying an oracle that simulates the receiver’s behavior. After a fixed number of queries, the sender commits to a messaging policy and the receiver takes the action that maximizes her expected utility given the message she receives. We characterize the sender’s optimal messaging policy given any distribution over receiver types. We then design a polynomial-time querying algorithm that optimizes the sender’s expected utility in this game. We also consider approximate oracles, more general query structures, and costly queries.

arxiv情報

著者 Keegan Harris,Nicole Immorlica,Brendan Lucier,Aleksandrs Slivkins
発行日 2025-02-12 15:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, econ.TH | Algorithmic Persuasion Through Simulation はコメントを受け付けていません

Input convex neural networks: universal approximation theorem and implementation for isotropic polyconvex hyperelastic energies

要約

このホワイトペーパーでは、普遍的な近似定理を同時に満たしながら、必要な物理的および数学的制約を強制する等方性過弾性のためのニューラルネットワークの新しいフレームワークを紹介します。
2つの重要な成分は、入力凸ネットワークアーキテクチャと、変形勾配の署名された特異値の基本多項式の定式化です。
以前に公開されていたネットワークに沿って、フレーム誘導と多様性を厳密にキャプチャすることができます。また、角の運動量や成長条件のバランスなどの制約があります。
ただし、以前のネットワークとは対照的に、提案されたアプローチの普遍的な近似定理が証明されています。
より明確にするために、提案されたネットワークは、フレーム誘導性の等方性多型エネルギーを近似できます(ネットワークが十分に大きい場合)。
これは、フレーム誘導性の等方性多型関数のための十分で必要な基準を使用することにより可能です。
既存のアプローチとの比較研究では、特に非耳膜エネルギーとコンピューティングポリコンベックスハルの近似において、提案された方法の利点を特定します。

要約(オリジナル)

This paper presents a novel framework of neural networks for isotropic hyperelasticity that enforces necessary physical and mathematical constraints while simultaneously satisfying the universal approximation theorem. The two key ingredients are an input convex network architecture and a formulation in the elementary polynomials of the signed singular values of the deformation gradient. In line with previously published networks, it can rigorously capture frame-indifference and polyconvexity – as well as further constraints like balance of angular momentum and growth conditions. However and in contrast to previous networks, a universal approximation theorem for the proposed approach is proven. To be more explicit, the proposed network can approximate any frame-indifferent, isotropic polyconvex energy (provided the network is large enough). This is possible by working with a sufficient and necessary criterion for frame-indifferent, isotropic polyconvex functions. Comparative studies with existing approaches identify the advantages of the proposed method, particularly in approximating non-polyconvex energies as well as computing polyconvex hulls.

arxiv情報

著者 Gian-Luca Geuken,Patrick Kurzeja,David Wiedemann,Jörn Mosler
発行日 2025-02-12 16:15:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 74B20, cs.AI, cs.CE, I.2.1 | Input convex neural networks: universal approximation theorem and implementation for isotropic polyconvex hyperelastic energies はコメントを受け付けていません