Affordable AI Assistants with Knowledge Graph of Thoughts

要約

大規模言語モデル(Large Language Models: LLM)は、ドメイン横断的に多様なタスクを実行できるAIアシスタントの開発に革命をもたらしている。しかし、現在の最先端のLLM駆動エージェントは、高い運用コストやGAIAのような複雑なベンチマークでの成功率の限界など、大きな課題に直面している。これらの問題に対処するために、我々は、LLM推論と動的に構築された知識グラフ(KG)を統合した革新的なAIアシスタントアーキテクチャであるKGoT(Knowledge Graph of Thoughts)を提案する。KGoTは、タスクに関連する知識を抽出し、動的なKG表現に構造化し、数学ソルバー、ウェブクローラ、Pythonスクリプトなどの外部ツールによって反復的に拡張する。このようなタスク関連知識の構造化表現により、低コストモデルで複雑なタスクを効果的に解くことができる。例えば、KGoTはGAIAベンチマークにおいて、GPT-4o miniを搭載したHugging Face Agentsと比較して、タスク成功率で29%の改善を達成する一方、GPT-4oと比較して36倍以上のコスト削減を実現しています。最近の推論モデルの改善も同様で、例えばQwen2.5-32BとDeepseek-R1-70Bではそれぞれ36%と37.5%です。KGoTは、AIアシスタントにスケーラブルで手頃な価格の高性能ソリューションを提供する。

要約(オリジナル)

Large Language Models (LLMs) are revolutionizing the development of AI assistants capable of performing diverse tasks across domains. However, current state-of-the-art LLM-driven agents face significant challenges, including high operational costs and limited success rates on complex benchmarks like GAIA. To address these issues, we propose the Knowledge Graph of Thoughts (KGoT), an innovative AI assistant architecture that integrates LLM reasoning with dynamically constructed knowledge graphs (KGs). KGoT extracts and structures task-relevant knowledge into a dynamic KG representation, iteratively enhanced through external tools such as math solvers, web crawlers, and Python scripts. Such structured representation of task-relevant knowledge enables low-cost models to solve complex tasks effectively. For example, KGoT achieves a 29% improvement in task success rates on the GAIA benchmark compared to Hugging Face Agents with GPT-4o mini, while reducing costs by over 36x compared to GPT-4o. Improvements for recent reasoning models are similar, e.g., 36% and 37.5% for Qwen2.5-32B and Deepseek-R1-70B, respectively. KGoT offers a scalable, affordable, and high-performing solution for AI assistants.

arxiv情報

著者 Maciej Besta,Lorenzo Paleari,Jia Hao Andrea Jiang,Robert Gerstenberger,You Wu,Patrick Iff,Ales Kubicek,Piotr Nyczyk,Diana Khimey,Jón Gunnar Hannesson,Grzegorz Kwaśniewski,Marcin Copik,Hubert Niewiadomski,Torsten Hoefler
発行日 2025-04-03 15:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | コメントする

FedMSE: Semi-supervised federated learning approach for IoT network intrusion detection

要約

本稿では、IoTネットワーク侵入検知を改善するための新しい連合学習アプローチを提案する。IoTの台頭によりサイバー攻撃対象が拡大し、データの可用性、計算リソース、転送コスト、特にプライバシーの保護に対する懸念から、従来の中央集権的な機械学習手法では不十分である。これらの問題を克服するために、Shrink AutoencoderとCentroid 1クラス分類器(SAE-CEN)を組み合わせた半教師付き連合学習モデルが開発された。このアプローチは、分散戦略において、正常なネットワークデータを効果的に表現し、異常を正確に識別することにより、侵入検知の性能を向上させる。さらに、平均二乗誤差ベースの集約アルゴリズム(MSEAvg)を導入し、より正確なローカルモデルを優先させることで、グローバルモデルの性能を向上させた。N-BaIoTデータセットとディリクレ分布に依存する様々な設定を使用する我々の実験セットアップで得られた結果は、実世界の異種IoTネットワークにおいて、検出精度が93.98$ppm$2.90から97.30$ppm$0.49に大幅に改善され、学習プロセスに参加するゲートウェイが50%で済む場合の学習コストの削減、大規模ネットワークにおける頑健性が実証された。

要約(オリジナル)

This paper proposes a novel federated learning approach for improving IoT network intrusion detection. The rise of IoT has expanded the cyber attack surface, making traditional centralized machine learning methods insufficient due to concerns about data availability, computational resources, transfer costs, and especially privacy preservation. A semi-supervised federated learning model was developed to overcome these issues, combining the Shrink Autoencoder and Centroid one-class classifier (SAE-CEN). This approach enhances the performance of intrusion detection by effectively representing normal network data and accurately identifying anomalies in the decentralized strategy. Additionally, a mean square error-based aggregation algorithm (MSEAvg) was introduced to improve global model performance by prioritizing more accurate local models. The results obtained in our experimental setup, which uses various settings relying on the N-BaIoT dataset and Dirichlet distribution, demonstrate significant improvements in real-world heterogeneous IoT networks in detection accuracy from 93.98$\pm$2.90 to 97.30$\pm$0.49, reduced learning costs when requiring only 50\% of gateways participating in the training process, and robustness in large-scale networks.

arxiv情報

著者 Van Tuan Nguyen,Razvan Beuran
発行日 2025-04-03 15:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

STOOD-X methodology: using statistical nonparametric test for OOD Detection Large-Scale datasets enhanced with explainability

要約

分布外(OOD)検出は機械学習において重要なタスクであり、特にモデルの失敗が重大な結果をもたらす可能性がある安全性に敏感なアプリケーションにおいて重要である。しかし、現在のOOD検出手法は、しばしば制限的な分布仮定、限られたスケーラビリティ、解釈可能性の欠如に悩まされている。これらの課題に対処するために、我々はSTOOD-Xを提案する。STOOD-Xは、OOD検出のための統計的ノンパラメトリック検定と、エクスプレナビリティの拡張を組み合わせた2段階の方法論である。第一段階では、STOOD-Xは特徴空間距離とWilcoxon-Mann-Whitney検定を用いて、特定の特徴分布を仮定することなくOODサンプルを識別する。第2段階では、BLUE XAIのパラダイムに沿った、各決定を駆動する特徴を明らかにする、ユーザーフレンドリーで概念に基づいた視覚的説明を生成する。ベンチマークデータセットと複数のアーキテクチャでの広範な実験を通して、STOOD-Xは、特に高次元で複雑な設定において、最先端のポストホックOOD検出器に対して競争力のある性能を達成した。さらに、その説明可能性フレームワークは、人間による監視、バイアス検出、モデルデバッグを可能にし、人間とAIシステム間の信頼と協調を促進する。したがって、STOOD-Xの手法は、実世界のOOD検出タスクに対して、ロバストで、説明可能で、スケーラブルなソリューションを提供する。

要約(オリジナル)

Out-of-Distribution (OOD) detection is a critical task in machine learning, particularly in safety-sensitive applications where model failures can have serious consequences. However, current OOD detection methods often suffer from restrictive distributional assumptions, limited scalability, and a lack of interpretability. To address these challenges, we propose STOOD-X, a two-stage methodology that combines a Statistical nonparametric Test for OOD Detection with eXplainability enhancements. In the first stage, STOOD-X uses feature-space distances and a Wilcoxon-Mann-Whitney test to identify OOD samples without assuming a specific feature distribution. In the second stage, it generates user-friendly, concept-based visual explanations that reveal the features driving each decision, aligning with the BLUE XAI paradigm. Through extensive experiments on benchmark datasets and multiple architectures, STOOD-X achieves competitive performance against state-of-the-art post hoc OOD detectors, particularly in high-dimensional and complex settings. In addition, its explainability framework enables human oversight, bias detection, and model debugging, fostering trust and collaboration between humans and AI systems. The STOOD-X methodology therefore offers a robust, explainable, and scalable solution for real-world OOD detection tasks.

arxiv情報

著者 Iván Sevillano-García,Julián Luengo,Francisco Herrera
発行日 2025-04-03 15:26:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.HC, cs.LG, stat.ML | コメントする

Disentanglement in Difference: Directly Learning Semantically Disentangled Representations by Maximizing Inter-Factor Differences

要約

本研究では、離散化表現学習における潜在変数の統計的独立性と意味的離散化の目標との間の本質的な矛盾に対処するために、差分離散化(Disentanglement in Difference:DiD)を提案する。従来の離散化手法は、潜在変数間の統計的独立性を向上させることで離散化表現を実現している。しかし、潜在変数の統計的独立性は、それらが意味的に無関係であることを必ずしも意味しないため、統計的独立性を向上させることが、必ずしも離散化の性能を向上させるとは限らない。そこで、潜在変数の統計的独立性ではなく、意味的な差分を直接学習するDiDが提案される。DiDでは、意味的差異を測定するために差分エンコーダが設計され、次元間比較を容易にするために対比的損失関数が確立される。この両者により、モデルは異なる意味因子を直接区別し、分離することが可能となり、統計的独立性と意味的分離の間の矛盾が解決される。dSpritesデータセットと3DShapesデータセットを用いた実験結果から、提案するDiDが、様々な離散化指標において既存の主流手法を凌駕することが実証される。

要約(オリジナル)

In this study, Disentanglement in Difference(DiD) is proposed to address the inherent inconsistency between the statistical independence of latent variables and the goal of semantic disentanglement in disentanglement representation learning. Conventional disentanglement methods achieve disentanglement representation by improving statistical independence among latent variables. However, the statistical independence of latent variables does not necessarily imply that they are semantically unrelated, thus, improving statistical independence does not always enhance disentanglement performance. To address the above issue, DiD is proposed to directly learn semantic differences rather than the statistical independence of latent variables. In the DiD, a Difference Encoder is designed to measure the semantic differences; a contrastive loss function is established to facilitate inter-dimensional comparison. Both of them allow the model to directly differentiate and disentangle distinct semantic factors, thereby resolving the inconsistency between statistical independence and semantic disentanglement. Experimental results on the dSprites and 3DShapes datasets demonstrate that the proposed DiD outperforms existing mainstream methods across various disentanglement metrics.

arxiv情報

著者 Xingshen Zhang,Lin Wang,Shuangrong Liu,Xintao Lu,Chaoran Pang,Bo Yang
発行日 2025-04-03 15:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

SCMPPI: Supervised Contrastive Multimodal Framework for Predicting Protein-Protein Interactions

要約

タンパク質間相互作用(PPI)予測は、細胞機能ネットワークや疾患メカニズムを解明する上で重要な課題である。しかし、従来の実験的手法は時間とコストがかかり、既存の計算モデルはクロスモーダル特徴融合、ロバスト性、偽陰性の抑制といった課題に直面している。本論文では、PPI予測のための新しい教師付き対比的マルチモーダルフレームワークSCMPPIを提案する。タンパク質配列特徴(AAC、DPC、CKSAAP-ESMC)とPPIネットワークトポロジー情報(Node2Vecグラフ埋め込み)を統合し、改良された教師付き対比学習戦略を組み合わせることで、SCMPPIはPPI予測性能を大幅に向上させる。PPIタスクに対して、SCMPPIは負のサンプルフィルタリングメカニズムを導入し、コントラスト損失関数を修正することで、マルチモーダル特徴を効果的に最適化する。酵母、ヒト、ピロリ菌を含む8つのベンチマークデータセットを用いた実験により、SCMPPIは、精度(98.01%)やAUC(99.62%)などの主要な指標において、既存の最先端手法(DF-PPIやTAGPPIなど)を凌駕し、種を超えた予測において強力な汎化性を示すことが示された(複数種のデータセットにおいてAUC > 99%)。さらに、SCMPPIはCD9ネットワーク、Wnt経路、および癌特異的ネットワークへの適用に成功しており、疾患標的探索のための信頼性の高いツールを提供している。また、このフレームワークは、マルチモーダルな生物学的情報の融合と、様々な組み合わせ予測のための協調最適化における対比学習のための新しいパラダイムを提供する。

要約(オリジナル)

Protein-Protein Interaction (PPI) prediction is a key task in uncovering cellular functional networks and disease mechanisms. However, traditional experimental methods are time-consuming and costly, and existing computational models face challenges in cross-modal feature fusion, robustness, and false-negative suppression. In this paper, we propose a novel supervised contrastive multimodal framework, SCMPPI, for PPI prediction. By integrating protein sequence features (AAC, DPC, CKSAAP-ESMC) with PPI network topology information (Node2Vec graph embedding), and combining an improved supervised contrastive learning strategy, SCMPPI significantly enhances PPI prediction performance. For the PPI task, SCMPPI introduces a negative sample filtering mechanism and modifies the contrastive loss function, effectively optimizing multimodal features. Experiments on eight benchmark datasets, including yeast, human, and H.pylori, show that SCMPPI outperforms existing state-of-the-art methods (such as DF-PPI and TAGPPI) in key metrics such as accuracy ( 98.01%) and AUC (99.62%), and demonstrates strong generalization in cross-species prediction (AUC > 99% on multi-species datasets). Furthermore, SCMPPI has been successfully applied to CD9 networks, the Wnt pathway, and cancer-specific networks, providing a reliable tool for disease target discovery. This framework also offers a new paradigm for multimodal biological information fusion and contrastive learning in collaborative optimization for various combined predictions.

arxiv情報

著者 Shengrui XU,Tianchi Lu,Zikun Wang,Jixiu Zhai,Jingwan Wang
発行日 2025-04-03 15:34:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T07, 92C40, cs.AI, cs.LG, I.2.6, q-bio.QM | コメントする

Responsible Development of Offensive AI

要約

AIの進歩に伴い、研究の優先順位を決定するために、より広範なコンセンサスが必要とされている。この試みは、攻撃的AIについて議論し、持続可能な開発目標(SDGs)と解釈可能性の技法を活用した指針を提供する。その目的は、社会的利益とリスクのバランスを考慮した優先順位をより効果的に設定することである。この研究で評価される攻撃型AIの2つの形態は、Capture-The-Flagの課題を解決する脆弱性検出エージェントと、AIを搭載したマルウェアである。

要約(オリジナル)

As AI advances, broader consensus is needed to determine research priorities. This endeavor discusses offensive AI and provides guidance by leveraging Sustainable Development Goals (SDGs) and interpretability techniques. The objective is to more effectively establish priorities that balance societal benefits against risks. The two forms of offensive AI evaluated in this study are vulnerability detection agents, which solve Capture- The-Flag challenges, and AI-powered malware.

arxiv情報

著者 Ryan Marinelli
発行日 2025-04-03 15:37:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.MA | コメントする

Convolution-Based Converter : A Weak-Prior Approach For Modeling Stochastic Processes Based On Conditional Density Estimation

要約

本論文では、確率過程における観測値に基づいてターゲットの確率分布を推定する際に、強いあるいは固定された事前分布を除去するための方法論を開発するために、コンボリューションベースのコンバータ(CBC)を提案する。従来のアプローチ、例えばマルコフに基づく手法やガウス過程に基づく手法は、一般に、強いあるいは固定的な事前分布(マルコフ特性やガウス事前分布など)に基づいてターゲットを推定するために観測値を活用する。しかし、これらの手法の有効性は、その事前仮定が問題の特性にどれだけ合致しているかに依存する。仮定された事前分布が満足されない場合、これらのアプローチの性能は低下するか、あるいは使えなくなることさえある。上記の制限を克服するために、我々は、強いあるいは固定的な事前分布を持たずにターゲットの条件付き確率分布を暗黙的に推定し、観測から制約を満たす確率過程の期待軌道を直接出力する、畳み込みに基づく変換器(CBC)を導入する。このアプローチにより、事前分布への依存が減少し、異なる問題に取り組む際の確率過程のモデル化における柔軟性と適応性が向上する。実験結果は、本手法が複数の指標において既存のベースラインを凌駕することを示している。

要約(オリジナル)

In this paper, a Convolution-Based Converter (CBC) is proposed to develop a methodology for removing the strong or fixed priors in estimating the probability distribution of targets based on observations in the stochastic process. Traditional approaches, e.g., Markov-based and Gaussian process-based methods, typically leverage observations to estimate targets based on strong or fixed priors (such as Markov properties or Gaussian prior). However, the effectiveness of these methods depends on how well their prior assumptions align with the characteristics of the problem. When the assumed priors are not satisfied, these approaches may perform poorly or even become unusable. To overcome the above limitation, we introduce the Convolution-Based converter (CBC), which implicitly estimates the conditional probability distribution of targets without strong or fixed priors, and directly outputs the expected trajectory of the stochastic process that satisfies the constraints from observations. This approach reduces the dependence on priors, enhancing flexibility and adaptability in modeling stochastic processes when addressing different problems. Experimental results demonstrate that our method outperforms existing baselines across multiple metrics.

arxiv情報

著者 Chaoran Pang,Lin Wang,Shuangrong Liu,Shikun Tian,WenHao Yue,Xingshen Zhang,Bo Yang
発行日 2025-04-03 15:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

RBR4DNN: Requirements-based Testing of Neural Networks

要約

ディープニューラルネットワーク(DNN)のテストは、障害が重大な結果をもたらす可能性のある重要なシステムの信頼性と安全性にとって極めて重要である。ロバスト性のテストスイートを作成するための様々な技術が開発されているが、DNNのための要件ベースのテストはほとんど未開拓のままである。この研究では、意味的特徴空間で定式化された構造化された自然言語要求を用いて、要求の前提条件でテキスト条件潜在拡散モデルを促し、関連する後条件を用いてテストオラクルを定義し、テスト対象のDNNの出力を判定することで、テストスイートを作成する要求ベースのテストスイート生成手法を提案する。我々は、事前に訓練された生成モデルの微調整された変種を用いて、このアプローチを調査する。MNIST、CelebA-HQ、ImageNet、および自律走行車のデータセットを用いた実験により、生成されたテスト・スイートが現実的で、多様で、前提条件と整合性があり、欠陥を明らかにできることが実証された。

要約(オリジナル)

Deep neural network (DNN) testing is crucial for the reliability and safety of critical systems, where failures can have severe consequences. Although various techniques have been developed to create robustness test suites, requirements-based testing for DNNs remains largely unexplored — yet such tests are recognized as an essential component of software validation of critical systems. In this work, we propose a requirements-based test suite generation method that uses structured natural language requirements formulated in a semantic feature space to create test suites by prompting text-conditional latent diffusion models with the requirement precondition and then using the associated postcondition to define a test oracle to judge outputs of the DNN under test. We investigate the approach using fine-tuned variants of pre-trained generative models. Our experiments on the MNIST, CelebA-HQ, ImageNet, and autonomous car driving datasets demonstrate that the generated test suites are realistic, diverse, consistent with preconditions, and capable of revealing faults.

arxiv情報

著者 Nusrat Jahan Mozumder,Felipe Toledo,Swaroopa Dola,Matthew B. Dwyer
発行日 2025-04-03 16:24:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.SE | コメントする

The Less Intelligent the Elements, the More Intelligent the Whole. Or, Possibly Not?

要約

我々は、ロトカ=ボルテラ・モデルの餌食と捕食者に、異なる洗練度を特徴とする行動アルゴリズムを与えることで、人工エージェントがいかに「知的」であるべきかについての議論にアプローチする。我々は、獲物と捕食者の両方に線形外挿に基づく予測を行う能力を与えることで、両方の種が共存しながら両方の個体群が無限に成長するという、新しい種類の動的平衡が現れることを発見した。一般的に、単純なエージェントが複雑な集団行動の出現に有利であることを確認する一方で、個体が互いの行動から一次導関数をとる能力を持つことで、あらゆる次数の導関数を集団で計算できる可能性があることも示唆する。

要約(オリジナル)

We approach the debate on how “intelligent” artificial agents should be, by endowing the preys and predators of the Lotka-Volterra model with behavioural algorithms characterized by different levels of sophistication. We find that by endowing both preys and predators with the capability of making predictions based on linear extrapolation a novel sort of dynamic equilibrium appears, where both species co-exist while both populations grow indefinitely. While we confirm that, in general, simple agents favour the emergence of complex collective behaviour, we also suggest that the capability of individuals to take first-order derivatives of one other’s behaviour may allow the collective computation of derivatives of any order.

arxiv情報

著者 Guido Fioretti,Andrea Policarpi
発行日 2025-04-03 16:33:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 00-99, 93A99, A.m; H.m, cs.AI, cs.SY, eess.SY, nlin.AO | コメントする

How Deep Do Large Language Models Internalize Scientific Literature and Citation Practices?

要約

科学的知識の普及は、研究者がどのように先行研究を発見し、引用するかによって決まる。科学研究のプロセスにおける大規模言語モデル(LLM)の採用は、このような引用の実践に新たなレイヤーを導入するものである。しかし、LLMがどの程度人間の引用慣行と一致しているのか、LLMがどのような領域でどのように機能しているのか、また、引用のダイナミクスに影響を与える可能性はまだ不明である。本論文では、LLMが引用文献を生成する際に一貫して被引用数の多い論文を優先することで、被引用におけるマシュー効果を系統的に強化していることを示す。このパターンは、外部書誌データベースの既存レコードと一致する参考文献の割合である存在率が分野によって大きく異なるにもかかわらず、科学分野全体にわたって持続している。GPT-4oによって生成された274,951の文献を10,000の論文について分析した結果、LLMの推奨は、タイトルが短く、著者の数が少ない、より新しい文献を好むことによって、従来の引用パターンから乖離していることがわかった。内容レベルの関連性を強調することで、生成された参考文献は、グランドトゥルースの参考文献と同等のレベルで各論文の内容と意味的に整合しており、著者の自己引用を減らしながら、同様のネットワーク効果を示している。これらの知見は、LLMがいかに引用の慣行を再構築し、確立された傾向を反映し増幅することによって科学的発見の軌道に影響を与えるかを示している。LLMが科学研究のプロセスに組み込まれるようになるにつれ、科学コミュニティが先行研究を発見し、それを基に研究を構築する方法を形成する上で、LLMが果たす役割を理解することが重要である。

要約(オリジナル)

The spread of scientific knowledge depends on how researchers discover and cite previous work. The adoption of large language models (LLMs) in the scientific research process introduces a new layer to these citation practices. However, it remains unclear to what extent LLMs align with human citation practices, how they perform across domains, and may influence citation dynamics. Here, we show that LLMs systematically reinforce the Matthew effect in citations by consistently favoring highly cited papers when generating references. This pattern persists across scientific domains despite significant field-specific variations in existence rates, which refer to the proportion of generated references that match existing records in external bibliometric databases. Analyzing 274,951 references generated by GPT-4o for 10,000 papers, we find that LLM recommendations diverge from traditional citation patterns by preferring more recent references with shorter titles and fewer authors. Emphasizing their content-level relevance, the generated references are semantically aligned with the content of each paper at levels comparable to the ground truth references and display similar network effects while reducing author self-citations. These findings illustrate how LLMs may reshape citation practices and influence the trajectory of scientific discovery by reflecting and amplifying established trends. As LLMs become more integrated into the scientific research process, it is important to understand their role in shaping how scientific communities discover and build upon prior work.

arxiv情報

著者 Andres Algaba,Vincent Holst,Floriano Tori,Melika Mobini,Brecht Verbeken,Sylvia Wenmackers,Vincent Ginis
発行日 2025-04-03 17:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.DL, cs.LG, cs.SI | コメントする