Logical Characterizations of Recurrent Graph Neural Networks with Reals and Floats

要約

2019年の先駆的な研究において、Barcel’oと共著者は、一階論理で定義可能な性質と比較して、一定の反復深さのグラフ・ニューラル・ネットワーク(GNN)の表現力に正確に一致する論理を特定した。本稿では、2つのシナリオにおけるリカレントGNNの厳密な論理的特徴を示す:(1)浮動小数点数の設定と、(2)実数の設定である。浮動小数点数の場合、リカレントGNNにマッチするフォーマリズムは、計数を伴うルールベースの様相論理であり、実数の場合は、同じく計数を伴う適切な無限項様相論理を用いる。これらの結果は、どちらの場合でも背景論理に相対化することなく、浮動小数点演算に関するいくつかの自然な仮定を用いて、リカレント設定における論理とGNNの間の厳密なマッチングを与える。また、我々の特徴づけを適用することで、モナド二階論理(MSO)で定義可能なグラフ特性に対して、我々の無限論理とルールベース論理が等しく表現可能であることを証明する。これは、実数と浮動小数点数を持つリカレントGNNが、MSOで定義可能な性質に対して同じ表現力を持つことを意味し、そのような性質に対して、実数を持つリカレントGNNも(有限!)ルールベースの様相論理で特徴づけられることを示す。これとは対照的に、一般的なケースでは、浮動小数点数による表現力は実数による表現力よりも弱い。論理指向の結果に加え、分散オートマトンによる実数と浮動小数点数のリカレントGNNの特徴づけも行い、分散コンピューティングモデルとの関連を示す。

要約(オリジナル)

In pioneering work from 2019, Barcel\’o and coauthors identified logics that precisely match the expressive power of constant iteration-depth graph neural networks (GNNs) relative to properties definable in first-order logic. In this article, we give exact logical characterizations of recurrent GNNs in two scenarios: (1) in the setting with floating-point numbers and (2) with reals. For floats, the formalism matching recurrent GNNs is a rule-based modal logic with counting, while for reals we use a suitable infinitary modal logic, also with counting. These results give exact matches between logics and GNNs in the recurrent setting without relativising to a background logic in either case, but using some natural assumptions about floating-point arithmetic. Applying our characterizations, we also prove that, relative to graph properties definable in monadic second-order logic (MSO), our infinitary and rule-based logics are equally expressive. This implies that recurrent GNNs with reals and floats have the same expressive power over MSO-definable properties and shows that, for such properties, also recurrent GNNs with reals are characterized by a (finitary!) rule-based modal logic. In the general case, in contrast, the expressive power with floats is weaker than with reals. In addition to logic-oriented results, we also characterize recurrent GNNs, with both reals and floats, via distributed automata, drawing links to distributed computing models.

arxiv情報

著者 Veeti Ahvonen,Damian Heiman,Antti Kuusisto,Carsten Lutz
発行日 2025-05-02 10:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LO, F.1.1 | Logical Characterizations of Recurrent Graph Neural Networks with Reals and Floats はコメントを受け付けていません

Automating the Generation of Prompts for LLM-based Action Choice in PDDL Planning

要約

大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに革命をもたらした。活発な議論は、LLMがどの程度まで推論やプランニングを行えるかということである。先行研究では、3つのPDDLドメインを自然言語(NL)プロンプトに手動で変換することに基づいて、PDDLプランニングという特定の文脈で後者を評価している。ここでは、この変換ステップを自動化し、LLMを活用してPDDL入力からNLプロンプトを自動生成する方法を示す。自動生成されたNLプロンプトは、従来の手作業で生成されたものと同様のLLMプランニング性能を示した。また、自動化により、より大規模な実験が可能となり、PDDLにおけるLLMプランニング性能の広範な評価が初めて可能となった。我々のNLプロンプトは、PDDLプロンプトや単純なテンプレートベースのNLプロンプトよりも優れた性能をもたらす。記号的プランナと比べて、LLMプランニングは大きく遅れをとるが、いくつかのドメ インでは、我々の最良のLLM構成は、LM-cutを使ったA$^star$よりさらにスケール アップする。

要約(オリジナル)

Large language models (LLMs) have revolutionized a large variety of NLP tasks. An active debate is to what extent they can do reasoning and planning. Prior work has assessed the latter in the specific context of PDDL planning, based on manually converting three PDDL domains into natural language (NL) prompts. Here we automate this conversion step, showing how to leverage an LLM to automatically generate NL prompts from PDDL input. Our automatically generated NL prompts result in similar LLM-planning performance as the previous manually generated ones. Beyond this, the automation enables us to run much larger experiments, providing for the first time a broad evaluation of LLM planning performance in PDDL. Our NL prompts yield better performance than PDDL prompts and simple template-based NL prompts. Compared to symbolic planners, LLM planning lags far behind; but in some domains, our best LLM configuration scales up further than A$^\star$ using LM-cut.

arxiv情報

著者 Katharina Stein,Daniel Fišer,Jörg Hoffmann,Alexander Koller
発行日 2025-05-02 10:41:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Automating the Generation of Prompts for LLM-based Action Choice in PDDL Planning はコメントを受け付けていません

Explainable AI Based Diagnosis of Poisoning Attacks in Evolutionary Swarms

要約

例えばマルチドローンネットワークのようなスウォーミングシステムは、重要な環境における監視、モニタリング、災害支援のような協調タスクを得意とし、自律エージェントがチームレベルの目標をロバストかつ効率的に達成するために分散型の意思決定を行う。残念ながら、野生のチームレベルの協調戦略は、データポイズニング攻撃に対して脆弱であり、その結果、エージェント間の協調が不正確になったり、敵対的な行動をとったりする。この課題に対処するため、我々は説明可能なAI手法を用いて、このようなデータポイズニング攻撃の影響を調査するフレームワークを提供する。エージェント間の相互作用を進化知能を用いてモデル化し、最適な連合が戦略的に出現して協調タスクを実行する。そして、厳密な評価を通して、データ操作攻撃を使って群モデルを系統的に汚染する。我々は、チーム戦略に対するポイズニングの影響を定量化し、診断を可能にするフットプリントの特徴を抽出するために、説明可能なAI手法の適用可能性を示す。その結果、モデルが10%以上ポイズニングされた場合、非効率的な協力をもたらす非最適戦略を特定できることがわかった。

要約(オリジナル)

Swarming systems, such as for example multi-drone networks, excel at cooperative tasks like monitoring, surveillance, or disaster assistance in critical environments, where autonomous agents make decentralized decisions in order to fulfill team-level objectives in a robust and efficient manner. Unfortunately, team-level coordinated strategies in the wild are vulnerable to data poisoning attacks, resulting in either inaccurate coordination or adversarial behavior among the agents. To address this challenge, we contribute a framework that investigates the effects of such data poisoning attacks, using explainable AI methods. We model the interaction among agents using evolutionary intelligence, where an optimal coalition strategically emerges to perform coordinated tasks. Then, through a rigorous evaluation, the swarm model is systematically poisoned using data manipulation attacks. We showcase the applicability of explainable AI methods to quantify the effects of poisoning on the team strategy and extract footprint characterizations that enable diagnosing. Our findings indicate that when the model is poisoned above 10%, non-optimal strategies resulting in inefficient cooperation can be identified.

arxiv情報

著者 Mehrdad Asadi,Roxana Rădulescu,Ann Nowé
発行日 2025-05-02 10:48:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI | Explainable AI Based Diagnosis of Poisoning Attacks in Evolutionary Swarms はコメントを受け付けていません

EnviKal-Loc: Sub-10m Indoor LoRaWAN Localization using an Environmental-Aware Path Loss and Adaptive RSSI Smoothing

要約

LoRaWAN技術の広範なカバレッジは、大規模なIoT展開の有力な候補として位置づけられている。しかし、複雑な環境条件、マルチパスフェージング、過渡的な障害物のために、屋内ローカライゼーションで10m以下の精度を達成することは依然として困難である。本稿では、適応フィルタリングと拡張対数距離、多壁パスロス、シャドーイング(PLS)モデルを組み合わせた、軽量かつ堅牢なアプローチを提案する。我々の方法論は、重要なLoRaWANパラメータ(受信信号強度インジケータ(RSSI)、周波数、信号対雑音比(SNR))と動的環境インジケータ(温度、湿度、二酸化炭素、粒子状物質、気圧)で従来のモデルを補強する。適応カルマンフィルターはRSSIの変動を低減し、瞬間的なノイズから持続的な傾向を分離します。1,328,334のフィールド測定値からなる6ヶ月間のデータセットを用いて、3つのモデルを評価した:ベースラインCOST 231マルチウォールモデル(MWM)、環境パラメータで補強したベースラインモデル(MWM-EP)、後者の前方のみの適応カルマンフィルターをかけたRSSIバージョン(MWM-EP-KF)。その結果、MWM-EP-KFは平均絶対誤差(MAE)5.81mを達成し、MWM-EP(10.56m)とベースラインMWMフレームワーク(17.98m)の両方を上回ることが確認された。また、カルマンフィルタリングは、RSSIの変動が大きい場合のロバスト性を42.63%(全デバイス平均)向上させました。これらの結果は、動的に変化する環境における正確な屋内LoRaWANローカライゼーションのための、解釈可能で効率的なソリューションを提示しています。

要約(オリジナル)

LoRaWAN technology’s extensive coverage positions it as a strong contender for large-scale IoT deployments. However, achieving sub-10 m accuracy in indoor localization remains challenging due to complex environmental conditions, multipath fading, and transient obstructions. This paper proposes a lightweight but robust approach combining adaptive filtering with an extended log-distance, multi-wall path loss and shadowing (PLS) model. Our methodology augments conventional models with critical LoRaWAN parameters (received signal strength indicator (RSSI), frequency, and signal-to-noise ratio (SNR)) and dynamic environmental indicators (temperature, humidity, carbon dioxide, particulate matter, and barometric pressure). An adaptive Kalman filter reduces RSSI fluctuations, isolating persistent trends from momentary noise. Using a six-month dataset of 1,328,334 field measurements, we evaluate three models: the baseline COST 231 multi-wall model (MWM), the baseline model augmented with environmental parameters (MWM-EP), and a forward-only adaptive Kalman-filtered RSSI version of the latter (MWM-EP-KF). Results confirm that the MWM-EP-KF achieves a mean absolute error (MAE) of 5.81 m, outperforming both the MWM-EP (10.56 m) and the baseline MWM framework (17.98 m). Environmental augmentation reduces systematic errors by 41.22%, while Kalman filtering significantly enhances robustness under high RSSI volatility by 42.63%, on average across all devices. These findings present an interpretable, efficient solution for precise indoor LoRaWAN localization in dynamically changing environments.

arxiv情報

著者 Nahshon Mokua Obiri,Kristof Van Laerhoven
発行日 2025-05-02 11:00:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.NI, eess.SP | EnviKal-Loc: Sub-10m Indoor LoRaWAN Localization using an Environmental-Aware Path Loss and Adaptive RSSI Smoothing はコメントを受け付けていません

Secure Cluster-Based Hierarchical Federated Learning in Vehicular Networks

要約

階層的統合学習(HFL)は最近、車両ネットワークにおけるインテリジェントな意思決定のための有望なソリューションとして登場し、限られた通信リソース、高い車両移動性、データの不均一性などの課題に対処するのに役立っている。しかし、HFLは、敵対的で信頼性の低い車両に対して脆弱であり、そのような車両による誤解を招く更新は、グローバルモデルの整合性と収束性を著しく損なう可能性がある。これらの課題に対処するために、我々は、特にガウスノイズと勾配上昇攻撃に対抗するように設計されたクラスタベースのHFLアーキテクチャにおいて、動的な車両選択とロバストな異常検知を統合した新しい防御フレームワークを提案する。このフレームワークは、過去の精度、貢献頻度、異常記録を評価することにより、各車両の包括的な信頼性評価を行う。異常検知は、モデル更新のZスコアと余弦類似度分析を組み合わせて、統計的外れ値とモデル更新の方向性の逸脱の両方を識別する。検出をさらに洗練させるために、コサイン類似度メトリックに適応閾値メカニズムが組み込まれ、各車両の過去の精度に基づいて閾値を動的に調整し、常に高いパフォーマンスを示す車両により厳しい基準を課す。さらに、重み付け勾配平均メカニズムが実装され、より信頼できる車両からの勾配更新により高い重みが割り当てられる。協調攻撃を防御するために、複数の危険なクラスタが誤解を招くような更新を協調して行う協調攻撃を識別するために、クラスタ間の整合性チェックが適用される。これらのメカニズムを組み合わせることで、悪意のある寄与を効果的にフィルタリングするためのマルチレベルの防御戦略を形成する。シミュレーションの結果、提案アルゴリズムは1ホップと3ホップの両方のトポロジーにおいて、ベンチマーク手法と比較して収束時間を大幅に短縮することが示された。

要約(オリジナル)

Hierarchical Federated Learning (HFL) has recently emerged as a promising solution for intelligent decision-making in vehicular networks, helping to address challenges such as limited communication resources, high vehicle mobility, and data heterogeneity. However, HFL remains vulnerable to adversarial and unreliable vehicles, whose misleading updates can significantly compromise the integrity and convergence of the global model. To address these challenges, we propose a novel defense framework that integrates dynamic vehicle selection with robust anomaly detection within a cluster-based HFL architecture, specifically designed to counter Gaussian noise and gradient ascent attacks. The framework performs a comprehensive reliability assessment for each vehicle by evaluating historical accuracy, contribution frequency, and anomaly records. Anomaly detection combines Z-score and cosine similarity analyses on model updates to identify both statistical outliers and directional deviations in model updates. To further refine detection, an adaptive thresholding mechanism is incorporated into the cosine similarity metric, dynamically adjusting the threshold based on the historical accuracy of each vehicle to enforce stricter standards for consistently high-performing vehicles. In addition, a weighted gradient averaging mechanism is implemented, which assigns higher weights to gradient updates from more trustworthy vehicles. To defend against coordinated attacks, a cross-cluster consistency check is applied to identify collaborative attacks in which multiple compromised clusters coordinate misleading updates. Together, these mechanisms form a multi-level defense strategy to filter out malicious contributions effectively. Simulation results show that the proposed algorithm significantly reduces convergence time compared to benchmark methods across both 1-hop and 3-hop topologies.

arxiv情報

著者 M. Saeid HaghighiFard,Sinem Coleri
発行日 2025-05-02 11:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.DC, cs.LG, cs.SY, eess.SY | Secure Cluster-Based Hierarchical Federated Learning in Vehicular Networks はコメントを受け付けていません

YARE-GAN: Yet Another Resting State EEG-GAN

要約

本研究では、Wasserstein GAN with Gradient Penalty(WGAN-GP)を実装してマルチチャンネルの安静時脳波データを生成し、視覚的評価と特徴量に基づく評価の両方を通じて合成信号の品質を評価する。その結果、前頭部の高周波振動を再現することに課題が残るものの、このモデルが実際の脳波データの統計的およびスペクトル的特徴を効果的に捉えていることが示された。さらに、Criticの学習した表現が性別分類タスクに再利用できることを示し、シャッフルラベルを用いたベースラインやEEGデータで直接学習したモデルよりも有意に優れたサンプル外精度を達成した。これらの知見は、生成モデルが脳波データ生成器としてだけでなく、教師なし特徴抽出器としても機能し、手作業による特徴工学の必要性を低減できることを示唆している。本研究は、EEG分析におけるGANベースの教師なし学習の可能性を浮き彫りにし、神経科学におけるよりデータ効率の高い深層学習アプリケーションへの道を示唆している。

要約(オリジナル)

In this study, we implement a Wasserstein GAN with Gradient Penalty (WGAN-GP) to generate multi-channel resting-state EEG data and assess the quality of the synthesized signals through both visual and feature-based evaluations. Our results indicate that the model effectively captures the statistical and spectral characteristics of real EEG data, although challenges remain in replicating high-frequency oscillations in the frontal region. Additionally, we demonstrate that the Critic’s learned representations can be reused for gender classification task, achieving an out-of-sample accuracy, significantly better than a shuffled-label baseline and a model trained directly on EEG data. These findings suggest that generative models can serve not only as EEG data generators but also as unsupervised feature extractors, reducing the need for manual feature engineering. This study highlights the potential of GAN-based unsupervised learning for EEG analysis, suggesting avenues for more data-efficient deep learning applications in neuroscience.

arxiv情報

著者 Yeganeh Farahzadi,Morteza Ansarinia,Zoltan Kekecs
発行日 2025-05-02 11:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, q-bio.NC | YARE-GAN: Yet Another Resting State EEG-GAN はコメントを受け付けていません

Exploring the Impact of Explainable AI and Cognitive Capabilities on Users’ Decisions

要約

人工知能(AI)システムは、領域横断的な意思決定に使用されることが多くなり、提供されるべき情報や説明に関する議論が高まっている。説明可能なAI(XAI)に関する研究の大半は、特徴に基づく説明に焦点を当てており、代替的なスタイルについてはあまり注目されていない。また、NFC(Need for Cognition:認知の必要性)のようなパーソナリティ特性は、NFCの低い人と高い人の間で異なる意思決定結果につながる可能性がある。我々は、ローン申請シナリオにおいて、AI情報(予測、確信、正確さ)の提示と異なる説明スタイル(例ベース、特徴ベース、ルールベース、反実仮想)が、正確さ、AIへの依存、認知負荷にどのように影響するかを調査した。また、XAIインターフェース要素(ローン属性、AI情報、説明)、精度、認知負荷の優先順位付けにおける低NFC者と高NFC者の違いも調べた。その結果、AIの信頼度が高いほど、AIへの依存度が有意に高まる一方、認知負荷は軽減されることがわかった。特徴に基づく説明は、他の条件と比べて精度を向上させなかった。反実仮想的な説明は理解しにくかったが、全体的な精度を高め、AIへの信頼を高め、AIの予測が正しい場合には認知負荷を軽減した。低NFCの人も高NFCの人も、ローン属性の後に説明を優先し、AI情報は最も重要ではなかった。しかし、精度や認知的負荷において低NFC群と高NFC群の間に有意差は見られず、AIによる意思決定支援における性格特性の役割について疑問が呈された。これらの知見は、人間とAIの協働を最適化するために、多様な説明スタイルを取り入れ、複数の性格特性やその他のユーザー特性を探求する、XAIインターフェースにおけるユーザー中心のパーソナライゼーションの必要性を強調している。

要約(オリジナル)

Artificial Intelligence (AI) systems are increasingly used for decision-making across domains, raising debates over the information and explanations they should provide. Most research on Explainable AI (XAI) has focused on feature-based explanations, with less attention on alternative styles. Personality traits like the Need for Cognition (NFC) can also lead to different decision-making outcomes among low and high NFC individuals. We investigated how presenting AI information (prediction, confidence, and accuracy) and different explanation styles (example-based, feature-based, rule-based, and counterfactual) affect accuracy, reliance on AI, and cognitive load in a loan application scenario. We also examined low and high NFC individuals’ differences in prioritizing XAI interface elements (loan attributes, AI information, and explanations), accuracy, and cognitive load. Our findings show that high AI confidence significantly increases reliance on AI while reducing cognitive load. Feature-based explanations did not enhance accuracy compared to other conditions. Although counterfactual explanations were less understandable, they enhanced overall accuracy, increasing reliance on AI and reducing cognitive load when AI predictions were correct. Both low and high NFC individuals prioritized explanations after loan attributes, leaving AI information as the least important. However, we found no significant differences between low and high NFC groups in accuracy or cognitive load, raising questions about the role of personality traits in AI-assisted decision-making. These findings highlight the need for user-centric personalization in XAI interfaces, incorporating diverse explanation styles and exploring multiple personality traits and other user characteristics to optimize human-AI collaboration.

arxiv情報

著者 Federico Maria Cau,Lucio Davide Spano
発行日 2025-05-02 11:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.HC | Exploring the Impact of Explainable AI and Cognitive Capabilities on Users’ Decisions はコメントを受け付けていません

A Causal World Model Underlying Next Token Prediction: Exploring GPT in a Controlled Environment

要約

次のトークンを予測するためだけに訓練された生成的事前訓練変換器(GPT)モデルは、シーケンスが1トークンずつ生成される世界モデルを暗黙的に学習するのだろうか?我々は、GPTにおける注意メカニズムの因果的解釈を導出し、この解釈から生じる因果的世界モデルを提案することで、この疑問に取り組む。さらに、推論時にGPTモデルを入力シーケンスのゼロショット因果構造学習に利用できることを提案し、信頼スコアを提示する。実証評価は、オセロとチェスの戦略ゲームのセットアップとルールを用いて、制御された環境で行われる。勝つことを意図してプレイされた実世界のゲームで事前に訓練されたGPTを、ランダムな合法的手のシーケンスからなる分布外の合成データでテストする。その結果、GPTモデルは、注意メカニズムに因果構造が符号化されている分布外のシーケンスに対して、高い信頼性で次の合法的な手を生成する可能性が高いことがわかった。また、GPTモデルが違法な手を生成する場合には、因果構造を捉えることができない。

要約(オリジナル)

Do generative pre-trained transformer (GPT) models, trained only to predict the next token, implicitly learn a world model from which a sequence is generated one token at a time? We address this question by deriving a causal interpretation of the attention mechanism in GPT, and suggesting a causal world model that arises from this interpretation. Furthermore, we propose that GPT models, at inference time, can be utilized for zero-shot causal structure learning for input sequences and present a confidence score. Empirical evaluation is conducted in a controlled environment using the setup and rules of the Othello and Chess strategy games. A GPT, pre-trained on real-world games played with the intention of winning, is tested on out-of-distribution synthetic data consisting of sequences of random legal moves. We find that the GPT model is likely to generate legal next moves for out-of-distribution sequences for which a causal structure is encoded in the attention mechanism with high confidence. In cases for which the GPT model generates illegal moves it also fails to capture any causal structure.

arxiv情報

著者 Raanan Y. Rohekar,Yaniv Gurwicz,Sungduk Yu,Estelle Aflalo,Vasudev Lal
発行日 2025-05-02 11:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | A Causal World Model Underlying Next Token Prediction: Exploring GPT in a Controlled Environment はコメントを受け付けていません

Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning

要約

本研究では、Text-to-SQLタスクを、従来のクエリ生成に重点を置くのではなく、大規模言語モデル(LLM)に表データを推論し操作することを教えるための経路として再定義する。我々は、移植可能なテーブル推論能力を開発するためにSQL監視を活用する2段階のフレームワークを提案する。第一に、実世界のSQLクエリから詳細な思考連鎖(CoT)トレースを合成し、テーブルフィールドのトラバース、フィルタリング、集約の方法をモデルに教える、ステップバイステップの節レベルの監視を提供する。第二に、タスクに特化した構文を超え、データセットにまたがって拡張するステップを奨励することで、SQLの実行精度を汎化可能な推論に結びつける、グループ相対的ポリシー最適化(GRPO)強化学習目的を導入する。経験的に、我々のアプローチは、標準的なText-to-SQLベンチマークの性能を向上させ、BIRDやCRT-QAのような推論集約的なデータセットで大幅な向上を達成し、汎化と解釈可能性の向上を実証した。特に、Text-to-SQLタスクで訓練した場合、蒸留量子化LLaMAモデルは相対的に33.9%の精度向上を達成し、Qwenは相対的に14.5%の向上を達成した。これらの結果は、SQLが目標とする形式論としてだけでなく、構造化データに対するロバストで転送可能な推論を学習するための効果的な足場としても機能することを示唆している。

要約(オリジナル)

This work reframes the Text-to-SQL task as a pathway for teaching large language models (LLMs) to reason over and manipulate tabular data–moving beyond the traditional focus on query generation. We propose a two-stage framework that leverages SQL supervision to develop transferable table reasoning capabilities. First, we synthesize detailed chain-of-thought (CoT) traces from real-world SQL queries, providing step-by-step, clause-level supervision that teaches the model how to traverse, filter, and aggregate table fields. Second, we introduce a Group Relative Policy Optimization (GRPO) reinforcement learning objective that connects SQL execution accuracy to generalizable reasoning by encouraging steps that extend beyond task-specific syntax and transfer across datasets. Empirically, our approach improves performance on standard Text-to-SQL benchmarks and achieves substantial gains on reasoning-intensive datasets such as BIRD and CRT-QA, demonstrating enhanced generalization and interpretability. Specifically, the distilled-quantized LLaMA model achieved a relative 33.9\% increase in accuracy when trained on Text-to-SQL tasks, while Qwen achieved a relative 14.5\% increase. These results suggest that SQL can serve not only as a target formalism but also as an effective scaffold for learning robust, transferable reasoning over structured data.

arxiv情報

著者 Josefa Lia Stoisser,Marc Boubnovski Martell,Julien Fauqueur
発行日 2025-05-02 11:34:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning はコメントを受け付けていません

Gender Bias in Explainability: Investigating Performance Disparity in Post-hoc Methods

要約

説明手法の応用と評価に関する研究は拡大し続けているが、サブグループ間の性能の格差に関する説明手法の公平性は、しばしば見落とされがちな側面である。本稿では、3つのタスクと5つの言語モデルにおいて、広く用いられているポストホック特徴帰属法が、その忠実性、頑健性、複雑性に関して著しい男女格差を示すことを示すことで、このギャップに対処する。これらの格差は、モデルが特に偏りのないデータセットで事前に訓練されたり、微調整されたりした場合でも持続し、我々が観察した格差は単に偏った訓練データの結果ではないことを示している。この結果は、説明可能性手法を開発・適用する際に、説明の格差に対処することの重要性を強調するものである。さらに、我々の知見は、モデル全体の公正さや説明可能性とともに、説明の公正さを規制の枠組みに組み込むことの重要性を強調している。

要約(オリジナル)

While research on applications and evaluations of explanation methods continues to expand, fairness of the explanation methods concerning disparities in their performance across subgroups remains an often overlooked aspect. In this paper, we address this gap by showing that, across three tasks and five language models, widely used post-hoc feature attribution methods exhibit significant gender disparity with respect to their faithfulness, robustness, and complexity. These disparities persist even when the models are pre-trained or fine-tuned on particularly unbiased datasets, indicating that the disparities we observe are not merely consequences of biased training data. Our results highlight the importance of addressing disparities in explanations when developing and applying explainability methods, as these can lead to biased outcomes against certain subgroups, with particularly critical implications in high-stakes contexts. Furthermore, our findings underscore the importance of incorporating the fairness of explanations, alongside overall model fairness and explainability, as a requirement in regulatory frameworks.

arxiv情報

著者 Mahdi Dhaini,Ege Erdogan,Nils Feldhus,Gjergji Kasneci
発行日 2025-05-02 11:41:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Gender Bias in Explainability: Investigating Performance Disparity in Post-hoc Methods はコメントを受け付けていません