ETM: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models

要約

テキストからSQLのタスクを使用すると、誰でも自然言語を使用してSQLデータベースから情報を取得できます。
このタスクは実質的な進歩を遂げましたが、2つの主要な評価メトリック – 実行精度(EXE)と正確な一致精度(ESM) – は、パフォーマンスを誤って伝えることができる固有の制限に苦しんでいます。
具体的には、ESMの厳格なマッチングは意味的に正しいがスタイリスト的に異なるクエリを見落としていますが、EXEは正しい出力を生成する構造エラーを無視することで正確性を過大評価することができます。
これらの欠点は、微調整なしで大規模な言語モデル(LLM)ベースのアプローチからの出力を評価する場合、特に問題があります。
したがって、新しいメトリック、強化されたツリーマッチング(ETM)を導入します。これは、構文要素とセマンティック要素の両方を使用してクエリを比較することにより、これらの問題を軽減します。
9つのLLMベースのモデルを評価することにより、EXEとESMが23.0%と28.9%の誤検知と負のレートを生成できることを示しますが、ETMはこれらのレートをそれぞれ0.3%と2.7%に減らします。
ETMスクリプトをオープンソースとしてリリースし、テキストからSQLを評価するためのより堅牢で信頼できるアプローチをコミュニティに提供します。

要約(オリジナル)

The task of Text-to-SQL enables anyone to retrieve information from SQL databases using natural language. While this task has made substantial progress, the two primary evaluation metrics — Execution Accuracy (EXE) and Exact Set Matching Accuracy (ESM) — suffer from inherent limitations that can misrepresent performance. Specifically, ESM’s rigid matching overlooks semantically correct but stylistically different queries, whereas EXE can overestimate correctness by ignoring structural errors that yield correct outputs. These shortcomings become especially problematic when assessing outputs from large language model (LLM)-based approaches without fine-tuning, which vary more in style and structure compared to their fine-tuned counterparts. Thus, we introduce a new metric, Enhanced Tree Matching (ETM), which mitigates these issues by comparing queries using both syntactic and semantic elements. Through evaluating nine LLM-based models, we show that EXE and ESM can produce false positive and negative rates as high as 23.0% and 28.9%, while ETM reduces these rates to 0.3% and 2.7%, respectively. We release our ETM script as open source, offering the community a more robust and reliable approach to evaluating Text-to-SQL.

arxiv情報

著者 Benjamin G. Ascoli,Yasoda Sai Ram Kandikonda,Jinho D. Choi
発行日 2025-02-12 17:20:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ETM: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models はコメントを受け付けていません

SPeCtrum: A Grounded Framework for Multidimensional Identity Representation in LLM-Based Agent

要約

個々のアイデンティティをシミュレートするための既存の方法は、多くの場合、人間の複雑さを単純化し、不完全または平坦化された表現につながる可能性があります。
これに対処するために、個人の多次元の自己概念を組み込むことにより、本物のLLMエージェントペルソナを構築するための根拠のあるフレームワークであるSpectrumを紹介します。
Spectrumは、ソーシャルアイデンティティ(S)、個人アイデンティティ(P)、および個人生活のコンテキスト(C)の3つのコアコンポーネントを統合し、それぞれがアイデンティティの明確でありながら相互接続された側面に貢献しています。
アイデンティティ表現におけるSpectrumの有効性を評価するために、自動化された人間の評価を実施しました。
人気のあるドラマキャラクターを使用した自動化された評価は、個人的な生活のコンテキスト(c)が好みと日常の日常的なキャラクターのアイデンティティに関する短いエッセイから派生したことを示しました。
SPCの組み合わせ。
対照的に、現実世界の個人が関与する人間の評価は、完全なSPCの組み合わせがC単独よりも包括的な自己概念表現を提供することを発見しました。
私たちの調査結果は、基本的なアイデンティティシミュレーションにはCだけで十分である可能性があるが、S、P、およびCを統合すると、実際のアイデンティティ表現の信頼性と精度が向上することを示唆しています。
全体として、Spectrumは、LLMエージェントの個人をシミュレートするための構造化されたアプローチを提供し、よりパーソナライズされた人間との相互作用を可能にし、シミュレーションベースの行動研究のリアリズムを改善します。

要約(オリジナル)

Existing methods for simulating individual identities often oversimplify human complexity, which may lead to incomplete or flattened representations. To address this, we introduce SPeCtrum, a grounded framework for constructing authentic LLM agent personas by incorporating an individual’s multidimensional self-concept. SPeCtrum integrates three core components: Social Identity (S), Personal Identity (P), and Personal Life Context (C), each contributing distinct yet interconnected aspects of identity. To evaluate SPeCtrum’s effectiveness in identity representation, we conducted automated and human evaluations. Automated evaluations using popular drama characters showed that Personal Life Context (C)-derived from short essays on preferences and daily routines-modeled characters’ identities more effectively than Social Identity (S) and Personal Identity (P) alone and performed comparably to the full SPC combination. In contrast, human evaluations involving real-world individuals found that the full SPC combination provided a more comprehensive self-concept representation than C alone. Our findings suggest that while C alone may suffice for basic identity simulation, integrating S, P, and C enhances the authenticity and accuracy of real-world identity representation. Overall, SPeCtrum offers a structured approach for simulating individuals in LLM agents, enabling more personalized human-AI interactions and improving the realism of simulation-based behavioral studies.

arxiv情報

著者 Keyeun Lee,Seo Hyeong Kim,Seolhee Lee,Jinsu Eun,Yena Ko,Hayeon Jeon,Esther Hehsun Kim,Seonghye Cho,Soeun Yang,Eun-mee Kim,Hajin Lim
発行日 2025-02-12 17:38:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SPeCtrum: A Grounded Framework for Multidimensional Identity Representation in LLM-Based Agent はコメントを受け付けていません

Uncovering Intermediate Variables in Transformers using Circuit Probing

要約

ニューラルネットワークモデルは、さまざまな複雑なタスクで高性能を達成していますが、実装するアルゴリズムは解釈が難しいことで有名です。
多くの場合、これらのアルゴリズムを理解するために、ネットワークの計算に関与する中間変数を仮定する必要があります。
たとえば、言語モデルは、文を生成するときに特定の構文特性に依存しますか?
しかし、既存の分析ツールにより、このタイプの仮説をテストすることが困難になります。
仮説の中間変数を計算する低レベルの回路を自動的に発見する新しい分析手法 – 回路プロービング – を提案します。
これにより、モデルパラメーターのレベルでの標的アブレーションによる因果分析が可能になります。
この方法を、単純な算術タスクでトレーニングされたモデルに適用し、モデルが学習したアルゴリズムを解読し、(2)モデル内のモジュラー構造を明らかにし、(3)トレーニングよりも回路の開発を追跡することで、その有効性を実証します。
これら3つの実験で、回路プローブが既存の方法の機能を組み合わせて拡張し、さまざまな分析に1つの統一されたアプローチを提供することを実証します。
最後に、現実世界のユースケースで回路プロービングを示します。GPT2-SmallおよびMediumの主題と反射性のANAPHORAの原因となる回路の発見です。

要約(オリジナル)

Neural network models have achieved high performance on a wide variety of complex tasks, but the algorithms that they implement are notoriously difficult to interpret. It is often necessary to hypothesize intermediate variables involved in a network’s computation in order to understand these algorithms. For example, does a language model depend on particular syntactic properties when generating a sentence? Yet, existing analysis tools make it difficult to test hypotheses of this type. We propose a new analysis technique – circuit probing – that automatically uncovers low-level circuits that compute hypothesized intermediate variables. This enables causal analysis through targeted ablation at the level of model parameters. We apply this method to models trained on simple arithmetic tasks, demonstrating its effectiveness at (1) deciphering the algorithms that models have learned, (2) revealing modular structure within a model, and (3) tracking the development of circuits over training. Across these three experiments we demonstrate that circuit probing combines and extends the capabilities of existing methods, providing one unified approach for a variety of analyses. Finally, we demonstrate circuit probing on a real-world use case: uncovering circuits that are responsible for subject-verb agreement and reflexive anaphora in GPT2-Small and Medium.

arxiv情報

著者 Michael A. Lepori,Thomas Serre,Ellie Pavlick
発行日 2025-02-12 18:24:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Uncovering Intermediate Variables in Transformers using Circuit Probing はコメントを受け付けていません

Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples

要約

モデルの横断的セマンティック検索機能の評価は、多くの場合、情報検索やセマンティックテキストの類似性などのタスクからの既存のデータセットに限定されます。
ドメイン固有の評価を可能にするために、ターゲットドメイン内の関心のある言語ペアの並列文ペアのセットのみを必要とする新しいクロスリンガルセマンティック検索タスクであるCross Lingual Semantic差別(CLSD)を紹介します。
このタスクは、モデルが大規模な言語モデルによって生成されたハードネガよりも高い真の並列文を横断的にランク付けする能力に焦点を当てています。
Newsのドメイン内で、Language Pairドイツフレンチのために導入されたCLSDタスクの4つのインスタンスを作成します。
このケーススタディ内では、検索タスク用にも微調整されたモデル(多言語E5)がピボット言語として英語を使用することで利点があり、LabseなどのBitextマイニングモデルは直接的に直接的にパフォーマンスを発揮することがわかります。
また、ディストラクタ生成戦略によって有効になっているきめの類似性分析も示し、さまざまな埋め込みモデルがさまざまなタイプの摂動に敏感であることを示しています。

要約(オリジナル)

The evaluation of cross-lingual semantic search capabilities of models is often limited to existing datasets from tasks such as information retrieval and semantic textual similarity. To allow for domain-specific evaluation, we introduce Cross Lingual Semantic Discrimination (CLSD), a novel cross-lingual semantic search task that requires only a set of parallel sentence pairs of the language pair of interest within the target domain. This task focuses on the ability of a model to cross-lingually rank the true parallel sentence higher than hard negatives generated by a large language model. We create four instances of our introduced CLSD task for the language pair German-French within the domain of news. Within this case study, we find that models that are also fine-tuned for retrieval tasks (e.g., multilingual E5) benefit from using English as the pivot language, while bitext mining models such as LaBSE perform best directly cross-lingually. We also show a fine-grained similarity analysis enabled by our distractor generation strategy, indicating that different embedding models are sensitive to different types of perturbations.

arxiv情報

著者 Andrianos Michail,Simon Clematide,Rico Sennrich
発行日 2025-02-12 18:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples はコメントを受け付けていません

Better Embeddings with Coupled Adam

要約

それらの驚くべき能力にもかかわらず、LLMSは、異方性の望ましくないが理解されていない特徴を示す単語表現を学びます。
この論文では、アダムの2番目の瞬間は異方性埋め込みの原因であると主張し、問題を軽減するためにアダムと呼ばれる修正されたオプティマイザーを提案します。
私たちの実験は、結合されたアダムが埋め込みの品質を大幅に向上させ、同時に十分なデータセットで上流と下流のパフォーマンスを向上させることを示しています。

要約(オリジナル)

Despite their remarkable capabilities, LLMs learn word representations that exhibit the undesirable yet poorly understood feature of anisotropy. In this paper, we argue that the second moment in Adam is a cause of anisotropic embeddings, and suggest a modified optimizer called Coupled Adam to mitigate the problem. Our experiments demonstrate that Coupled Adam significantly improves the quality of embeddings, while also leading to better upstream and downstream performance on large enough datasets.

arxiv情報

著者 Felix Stollenwerk,Tobias Stollenwerk
発行日 2025-02-12 14:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Better Embeddings with Coupled Adam はコメントを受け付けていません

How Sparse Attention Approximates Exact Attention? Your Attention is Naturally $n^C$-Sparse

要約

まばらな注意は、標準的な注意計算を亜科下の複雑さで近似する手法です。
これは、SoftMax関数計算中に注意マトリックスの小さなエントリを選択的に無視することによって達成されます。
剪定KVキャッシュ、スパースベースの高速注意、スパーストランスなどのこの手法のバリエーションは、効率的な大規模な言語モデル(LLMS)の展開に広く利用されています。
その広範な使用にもかかわらず、従来の注意と同等の注意を払う条件の理論的理解は、とらえどころのないままです。
この作業は、標準の注意プロセスの固有のスパース性を調べることにより、$ \ textbf {このギャップを埋めることを目指しています} $。
私たちの理論的枠組みは、いくつかの真新しい重要な洞察を明らかにしています:$ \ bullet $の注意は$ n^{c} $ – スパースです。
$エントリは、まばらな注意が損失の減少に伴う正確な注意マトリックスを近似するのに十分です。
ここで、$ n $は入力長を表し、$ c \ in(0、1)$は定数です。
$ \ bullet $ stable $ o(\ log(n))$ – $ \ log(n)$または少ないエントリで注意計算に近似するスパースの注意は、エラーが最低$ oで持続するため、実行不可能な場合があります
(1)$。
$ \ bullet $ adaptive戦略($ \ alpha \ cdot n^c、\ alpha \ in \ mathbb {r} $)は、固定されたものではなく、効率的な注意方法のウィンドウサイズのために、より正確かつ効率的に実行することが保証されています。
柔軟なコンテキストの長さに関する推論のためのタスク。

要約(オリジナル)

Sparse Attention is a technique that approximates standard attention computation with sub-quadratic complexity. This is achieved by selectively ignoring smaller entries in the attention matrix during the softmax function computation. Variations of this technique, such as pruning KV cache, sparsity-based fast attention, and Sparse Transformer, have been extensively utilized for efficient Large Language Models (LLMs) deployment. Despite its widespread use, a theoretical understanding of the conditions under which sparse attention performs on par with traditional attention remains elusive. This work aims to $\textbf{bridge this gap by examining the inherent sparsity of standard attention processes}$. Our theoretical framework reveals several brand-new key insights: $\bullet$ Attention is $n^{C}$-sparse, implying that considering only the largest $\Omega(n^{C})$ entries out of all $n$ entries is sufficient for sparse attention to approximate the exact attention matrix with decreasing loss. Here, $n$ represents the input length and $C \in (0, 1)$ is a constant. $\bullet$ Stable $o(\log(n))$-sparse attention, which approximates attention computation with $\log(n)$ or fewer entries, may not be feasible since the error will persist at a minimum of $O(1)$. $\bullet$ An adaptive strategy ($\alpha \cdot n^C, \alpha \in \mathbb{R}$) for the window size of efficient attention methods rather than a fixed one is guaranteed to perform more accurately and efficiently in a task for inference on flexible context lengths.

arxiv情報

著者 Yichuan Deng,Zhao Song,Jing Xiong,Chiwun Yang
発行日 2025-02-12 14:32:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | How Sparse Attention Approximates Exact Attention? Your Attention is Naturally $n^C$-Sparse はコメントを受け付けていません

CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World

要約

ロボットで人間レベルの器用さを達成することは、ロボット操作の分野で重要な目的です。
3Dベースの模倣学習における最近の進歩により、有望な結果が示されており、この目標を達成するための効果的な経路を提供しています。
ただし、高品質の3D表現を取得すると、2つの重要な問題が示されます。(1)単一ビューカメラによってキャプチャされるポイントクラウドの品質は、カメラの解像度、位置決め、および器用な手によって引き起こされる閉塞などの要因によって大きく影響を受けます。
(2)グローバルポイントクラウドには、きちんとした器用な操作タスクに必要な重要な連絡先情報と空間的対応がありません。
これらの制限を排除するために、オブジェクトとロボット固有受容の堅牢な6Dポーズ推定を活用することにより、対応を構築および学習する新しいフレームワークであるCordVIPを提案します。
具体的には、最初にオブジェクトとハンドの間に対応を確立する相互作用対応ポイントクラウドを導入します。
これらのポイントクラウドは、トレーニング前のポリシーに使用されます。このポリシーでは、オブジェクト中心のコンタクトマップとハンドアーム調整情報も組み込まれ、空間的ダイナミクスと時間的ダイナミクスの両方を効果的にキャプチャします。
私たちの方法は、4つの現実世界のタスクで平均成功率が90 \%で、他のベースラインを大きなマージンで超えた例外的な器用な操作機能を示しています。
実験結果は、異なるオブジェクト、視点、シナリオに対するCordVIPの優れた一般化と堅牢性も強調しています。
コードとビデオは、https://aurleleopku.github.io/cordvipで入手できます。

要約(オリジナル)

Achieving human-level dexterity in robots is a key objective in the field of robotic manipulation. Recent advancements in 3D-based imitation learning have shown promising results, providing an effective pathway to achieve this goal. However, obtaining high-quality 3D representations presents two key problems: (1) the quality of point clouds captured by a single-view camera is significantly affected by factors such as camera resolution, positioning, and occlusions caused by the dexterous hand; (2) the global point clouds lack crucial contact information and spatial correspondences, which are necessary for fine-grained dexterous manipulation tasks. To eliminate these limitations, we propose CordViP, a novel framework that constructs and learns correspondences by leveraging the robust 6D pose estimation of objects and robot proprioception. Specifically, we first introduce the interaction-aware point clouds, which establish correspondences between the object and the hand. These point clouds are then used for our pre-training policy, where we also incorporate object-centric contact maps and hand-arm coordination information, effectively capturing both spatial and temporal dynamics. Our method demonstrates exceptional dexterous manipulation capabilities with an average success rate of 90\% in four real-world tasks, surpassing other baselines by a large margin. Experimental results also highlight the superior generalization and robustness of CordViP to different objects, viewpoints, and scenarios. Code and videos are available on https://aureleopku.github.io/CordViP.

arxiv情報

著者 Yankai Fu,Qiuxuan Feng,Ning Chen,Zichen Zhou,Mengzhen Liu,Mingdong Wu,Tianxing Chen,Shanyu Rong,Jiaming Liu,Hao Dong,Shanghang Zhang
発行日 2025-02-12 14:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World はコメントを受け付けていません

Towards Prompt Generalization: Grammar-aware Cross-Prompt Automated Essay Scoring

要約

自動エッセイスコアリング(AES)では、最近の取り組みが、実用的な適用性の目に見えないプロンプトのエッセイを獲得するクロスプロンプト設定にシフトしました。
ただし、特定のプロンプトのエッセイスコアペアで訓練された以前の方法は、迅速なエッセイ表現を取得する上で課題をもたらします。
この作業では、一般的なエッセイ表現を学ぶために迅速な非依存的な構文的側面を内部的にキャプチャする文法を意識したクロスプロムプト特性スコアリング(GAPS)を提案します。
文法エラー補正手法を介してエッセイで文法エラー補正情報を取得し、AESモデルを設計して、そのような情報をシームレスに統合します。
修正されたエッセイと元のエッセイの両方を内部的に言及することにより、モデルはトレーニング中に一般的な機能に焦点を当てることができます。
経験的実験は、我々の方法の一般化可能性を検証し、迅速な独立および文法関連の特性の顕著な改善を示します。
さらに、ギャップは、最も挑戦的なクロスプロンプトシナリオで顕著なQWKの利益を達成し、目に見えないプロンプトを評価する際の強みを強調しています。

要約(オリジナル)

In automated essay scoring (AES), recent efforts have shifted toward cross-prompt settings that score essays on unseen prompts for practical applicability. However, prior methods trained with essay-score pairs of specific prompts pose challenges in obtaining prompt-generalized essay representation. In this work, we propose a grammar-aware cross-prompt trait scoring (GAPS), which internally captures prompt-independent syntactic aspects to learn generic essay representation. We acquire grammatical error-corrected information in essays via the grammar error correction technique and design the AES model to seamlessly integrate such information. By internally referring to both the corrected and the original essays, the model can focus on generic features during training. Empirical experiments validate our method’s generalizability, showing remarkable improvements in prompt-independent and grammar-related traits. Furthermore, GAPS achieves notable QWK gains in the most challenging cross-prompt scenario, highlighting its strength in evaluating unseen prompts.

arxiv情報

著者 Heejin Do,Taehee Park,Sangwon Ryu,Gary Geunbae Lee
発行日 2025-02-12 14:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Prompt Generalization: Grammar-aware Cross-Prompt Automated Essay Scoring はコメントを受け付けていません

Confidence-based Estimators for Predictive Performance in Model Monitoring

要約

機械学習モデルが生産に展開された後、その予測パフォーマンスを監視する必要があります。
理想的には、このような監視は、モデルの予測をグラウンドトゥルースラベルと比較することで実行できます。
これを可能にするためには、グラウンドトゥルースラベルは、推論後すぐに利用可能でなければなりません。
ただし、グラウンドトゥルースラベルは、大幅な遅延の後にのみ利用可能である場合、または最悪の場合はまったく使用できない場合があります。
そのような場合、モデルの予測パフォーマンスを直接監視することは不可能です。
最近、グラウンドトゥルースが利用できないときにモデルの予測パフォーマンスを推定するための新しい方法が開発されました。
これらの方法の多くは、モデルの信頼性またはその他の不確実性の推定値を活用し、ナイーブなベースライン法、つまり平均信頼性(AC)と実験的に比較されます。
ただし、これまで、ACメソッドの理論的特性は適切に調査されていません。
この論文では、ACメソッドをレビューしてこのギャップを埋め、特定の一般的な仮定の下で、モデル精度の偏りのない一貫した推定器であることを示しています。
また、このベースライン推定器をより複雑な推定器と経験的に比較し、多くの場合、ACメソッドが他の方法を打ち負かすことができることを示していますが、異なる推定器の比較品質は大規模なケース依存性です。

要約(オリジナル)

After a machine learning model has been deployed into production, its predictive performance needs to be monitored. Ideally, such monitoring can be carried out by comparing the model’s predictions against ground truth labels. For this to be possible, the ground truth labels must be available relatively soon after inference. However, there are many use cases where ground truth labels are available only after a significant delay, or in the worst case, not at all. In such cases, directly monitoring the model’s predictive performance is impossible. Recently, novel methods for estimating the predictive performance of a model when ground truth is unavailable have been developed. Many of these methods leverage model confidence or other uncertainty estimates and are experimentally compared against a naive baseline method, namely Average Confidence (AC), which estimates model accuracy as the average of confidence scores for a given set of predictions. However, until now the theoretical properties of the AC method have not been properly explored. In this paper, we try to fill this gap by reviewing the AC method and show that under certain general assumptions, it is an unbiased and consistent estimator of model accuracy with many desirable properties. We also compare this baseline estimator against some more complex estimators empirically and show that in many cases the AC method is able to beat the others, although the comparative quality of the different estimators is heavily case-dependent.

arxiv情報

著者 Juhani Kivimäki,Jakub Białek,Jukka K. Nurminen,Wojtek Kuberski
発行日 2025-02-12 14:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Confidence-based Estimators for Predictive Performance in Model Monitoring はコメントを受け付けていません

GraphXAIN: Narratives to Explain Graph Neural Networks

要約

グラフニューラルネットワーク(GNNS)は、グラフ構造データの機械学習の強力な手法ですが、解釈可能性に課題をもたらします。
既存のGNN説明方法は通常、サブグラフや特徴の重要性スコアなどの技術的な出力を生成します。これは、非DATA科学者が理解し、それによって説明の目的に違反することが困難です。
最近の説明可能なAI(XAI)の研究に動機付けられているため、GNNの予測を説明する自然言語の物語を生成する方法であるGraphXainを提案します。
GraphXainは、大規模な言語モデル(LLM)を使用して説明サブグラフを変換し、重要性のスコアをGNN意思決定プロセスの一貫したストーリーのような説明に翻訳するモデルおよび説明型の方法です。
実際のデータセットの評価は、グラフの説明を改善するGraphxainの能力を示しています。
機械学習の研究者と実践者の調査では、GraphXainがモデル予測の通信のための理解可能性、満足度、説得力、および適合性という4つの説明可能性の次元を強化することが明らかになりました。
別のグラフ説明方法と組み合わせると、GraphXainは信頼性、洞察、自信、使いやすさをさらに改善します。
特に、参加者の95%がGraphxainがGNN説明方法に貴重な追加であることを発見しました。
自然言語の物語を組み込むことにより、私たちのアプローチは、より明確で効果的な説明を提供することにより、グラフの実践者と非専門家の両方のユーザーの両方にサービスを提供します。

要約(オリジナル)

Graph Neural Networks (GNNs) are a powerful technique for machine learning on graph-structured data, yet they pose challenges in interpretability. Existing GNN explanation methods usually yield technical outputs, such as subgraphs and feature importance scores, that are difficult for non-data scientists to understand and thereby violate the purpose of explanations. Motivated by recent Explainable AI (XAI) research, we propose GraphXAIN, a method that generates natural language narratives explaining GNN predictions. GraphXAIN is a model- and explainer-agnostic method that uses Large Language Models (LLMs) to translate explanatory subgraphs and feature importance scores into coherent, story-like explanations of GNN decision-making processes. Evaluations on real-world datasets demonstrate GraphXAIN’s ability to improve graph explanations. A survey of machine learning researchers and practitioners reveals that GraphXAIN enhances four explainability dimensions: understandability, satisfaction, convincingness, and suitability for communicating model predictions. When combined with another graph explainer method, GraphXAIN further improves trustworthiness, insightfulness, confidence, and usability. Notably, 95% of participants found GraphXAIN to be a valuable addition to the GNN explanation method. By incorporating natural language narratives, our approach serves both graph practitioners and non-expert users by providing clearer and more effective explanations.

arxiv情報

著者 Mateusz Cedro,David Martens
発行日 2025-02-12 15:14:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | GraphXAIN: Narratives to Explain Graph Neural Networks はコメントを受け付けていません