A Methodological Report on Anomaly Detection on Dynamic Knowledge Graphs


本稿では、Kubernetesアプリケーションのマイクロサービス環境において、特に動的ナレッジグラフの異常検知に対するさまざまなアプローチを探求する。我々のアプローチは、3つの動的知識グラフ表現を探求する:シーケンシャルデータ、ワンホップグラフ構造、および2ホップグラフ構造であり、各表現はますます複雑な構造情報を組み込んでいる。各フェーズには、異なる機械学習とディープラーニングモデルが含まれる。我々はそれらの性能を経験的に分析し、これらのモデルのアンサンブル学習に基づくアプローチを提案する。我々のアプローチは、ISWC 2024動的知識グラフ異常検知データセットにおいてベースラインを大幅に上回り、動的複雑データにおける異常検知のための頑健なソリューションを提供する。


In this paper, we explore different approaches to anomaly detection on dynamic knowledge graphs, specifically in a microservices environment for Kubernetes applications. Our approach explores three dynamic knowledge graph representations: sequential data, one-hop graph structure, and two-hop graph structure, with each representation incorporating increasingly complex structural information. Each phase includes different machine learning and deep learning models. We empirically analyse their performance and propose an approach based on ensemble learning of these models. Our approach significantly outperforms the baseline on the ISWC 2024 Dynamic Knowledge Graph Anomaly Detection dataset, providing a robust solution for anomaly detection in dynamic complex data.


著者 Xiaohua Lu,Leshanshui Yang
発行日 2024-10-03 16:10:43+00:00
PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling


プロンプト最適化の目的は、与えられたタスクに最適なプロンプトを大規模言語モデル(LLM)に求めることである。LLMは、シングルステップのタスクのプロンプト候補を見つけ、改善するために使用されてきた。(1)プロンプトの内容はより広範で複雑になる可能性が高く、LLMがエラーを分析することがより困難になる、(2)個々のステップの影響を評価することが困難である、(3)タスク実行に関する好みは人によって異なる可能性がある。そこで我々は、LLM駆動の新しい離散プロンプト最適化フレームワークPRompt Optimization in Multi-Step Tasks (PROMST)を導入し、人間が設計したフィードバックルールを組み込んで、改善のための直接的な提案を自動的に行う。また、プロンプト候補から効率的にサンプリングするために、プロンプトのパフォーマンスを予測する追加学習されたヒューリスティックモデルを用いる。このアプローチは、11の代表的なマルチステップタスクにおいて、人間が設計したプロンプトと他のいくつかのプロンプト最適化手法の両方を大幅に上回る(それぞれ5つのLLMにおいて、現在の最良手法に対して平均10.6%~29.3%の改善)。我々は、我々の研究が、LLM駆動マルチステップタスクの自動プロンプト最適化のベンチマークになると信じている。データセットとコードはhttps://github.com/yongchao98/PROMST。プロジェクトページはhttps://yongchao98.github.io/MIT-REALM-PROMST。


Prompt optimization aims to find the best prompt to a large language model (LLM) for a given task. LLMs have been successfully used to help find and improve prompt candidates for single-step tasks. However, realistic tasks for agents are multi-step and introduce new challenges: (1) Prompt content is likely to be more extensive and complex, making it more difficult for LLMs to analyze errors, (2) the impact of an individual step is difficult to evaluate, and (3) different people may have varied preferences about task execution. While humans struggle to optimize prompts, they are good at providing feedback about LLM outputs; we therefore introduce a new LLM-driven discrete prompt optimization framework PRompt Optimization in Multi-Step Tasks (PROMST) that incorporates human-designed feedback rules to automatically offer direct suggestions for improvement. We also use an extra learned heuristic model that predicts prompt performance to efficiently sample from prompt candidates. This approach significantly outperforms both human-engineered prompts and several other prompt optimization methods across 11 representative multi-step tasks (an average 10.6\%-29.3\% improvement to current best methods on five LLMs respectively). We believe our work can serve as a benchmark for automatic prompt optimization for LLM-driven multi-step tasks. Datasets and Codes are available at https://github.com/yongchao98/PROMST. Project Page is available at https://yongchao98.github.io/MIT-REALM-PROMST.


著者 Yongchao Chen,Jacob Arkin,Yilun Hao,Yang Zhang,Nicholas Roy,Chuchu Fan
発行日 2024-10-03 16:11:43+00:00
Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization


条件付き分布 $pi^*(\cdot|x)$ の学習は機械学習における中心的な問題であり、一般的にペアデータ $(x,y)ΓsimΓpi^*$ を用いた教師あり手法によってアプローチされる。しかし、ペアデータの取得は、特にドメイン翻訳のような問題では、しばしば困難である。このため、限られたペアデータと、マージナル分布からの追加のペアでない i.i.d.サンプル$x \sim \pi^*_x$, $y \sim \pi^*_y$ の両方を利用する$textit{半教師付き}$モデルの開発が必要となる。このような結合データの利用は複雑であり、しばしば発見的アプローチに依存する。この問題に取り組むために、我々は、データ尤度最大化技法を通して、対になったデータと対になっていないデータの両方を$textbf{seamlessly}$統合する新しい学習パラダイムを提案する。我々は、我々のアプローチが逆エントロピー最適輸送(OT)と興味深いつながりを持つことを示す。この発見により、計算OTの最近の進歩を応用して、$pi^*(˶cdot|x)$を得る$textbf{light}$学習アルゴリズムを確立することができる。さらに、本手法が、対になったデータと対になっていないデータを同時に用いて条件付き分布を効果的に学習することを、実証実験により示す。


Learning conditional distributions $\pi^*(\cdot|x)$ is a central problem in machine learning, which is typically approached via supervised methods with paired data $(x,y) \sim \pi^*$. However, acquiring paired data samples is often challenging, especially in problems such as domain translation. This necessitates the development of $\textit{semi-supervised}$ models that utilize both limited paired data and additional unpaired i.i.d. samples $x \sim \pi^*_x$ and $y \sim \pi^*_y$ from the marginal distributions. The usage of such combined data is complex and often relies on heuristic approaches. To tackle this issue, we propose a new learning paradigm that integrates both paired and unpaired data $\textbf{seamlessly}$ through the data likelihood maximization techniques. We demonstrate that our approach also connects intriguingly with inverse entropic optimal transport (OT). This finding allows us to apply recent advances in computational OT to establish a $\textbf{light}$ learning algorithm to get $\pi^*(\cdot|x)$. Furthermore, we demonstrate through empirical tests that our method effectively learns conditional distributions using paired and unpaired data simultaneously.


著者 Mikhail Persiianov,Arip Asadulaev,Nikita Andreev,Nikita Starodubcev,Dmitry Baranchuk,Anastasis Kratsios,Evgeny Burnaev,Alexander Korotin
発行日 2024-10-03 16:12:59+00:00
A deep learning-enabled smart garment for accurate and versatile sleep conditions monitoring in daily life




In wearable smart systems, continuous monitoring and accurate classification of different sleep-related conditions are critical for enhancing sleep quality and preventing sleep-related chronic conditions. However, the requirements for device-skin coupling quality in electrophysiological sleep monitoring systems hinder the comfort and reliability of night wearing. Here, we report a washable, skin-compatible smart garment sleep monitoring system that captures local skin strain signals under weak device-skin coupling conditions without positioning or skin preparation requirements. A printed textile-based strain sensor array responds to strain from 0.1% to 10% with a gauge factor as high as 100 and shows independence to extrinsic motion artefacts via strain-isolating printed pattern design. Through reversible starching treatment, ink penetration depth during direct printing on garments is controlled to achieve batch-to-batch performance variation < 10%. Coupled with deep learning, explainable artificial intelligence (XAI), and transfer learning data processing, the smart garment is capable of classifying six sleep states with an accuracy of 98.6%, maintaining excellent explainability (classification with low bias) and generalization (95% accuracy on new users with few-shot learning less than 15 samples per class) in practical applications, paving the way for next-generation daily sleep healthcare management.


著者 Chenyu Tang,Wentian Yi,Muzi Xu,Yuxuan Jin,Zibo Zhang,Xuhang Chen,Caizhi Liao,Peter Smielewski,Luigi G. Occhipinti
発行日 2024-10-03 16:13:26+00:00
Beyond principlism: Practical strategies for ethical AI use in research practices




The rapid adoption of generative artificial intelligence (AI) in scientific research, particularly large language models (LLMs), has outpaced the development of ethical guidelines, leading to a Triple-Too problem: too many high-level ethical initiatives, too abstract principles lacking contextual and practical relevance, and too much focus on restrictions and risks over benefits and utilities. Existing approaches, including principlism (reliance on abstract ethical principles), formalism (rigid application of rules), and technical solutionism (overemphasis on technological fixes), offer little practical guidance for addressing ethical challenges of AI in scientific research practices. To bridge the gap between abstract principles and day-to-day research practices, a user-centered, realism-inspired approach is proposed here. It outlines five specific goals for ethical AI use: 1) understanding model training and output, including bias mitigation strategies; 2) respecting privacy, confidentiality, and copyright; 3) avoiding plagiarism and policy violations; 4) applying AI beneficially compared to alternatives; and 5) using AI transparently and reproducibly. Each goal is accompanied by actionable strategies and realistic cases of misuse and corrective measures. I argue that ethical AI application requires evaluating its utility against existing alternatives rather than isolated performance metrics. Additionally, I propose documentation guidelines to enhance transparency and reproducibility in AI-assisted research. Moving forward, we need targeted professional development, training programs, and balanced enforcement mechanisms to promote responsible AI use while fostering innovation. By refining these ethical guidelines and adapting them to emerging AI capabilities, we can accelerate scientific progress without compromising research integrity.


著者 Zhicheng Lin
発行日 2024-10-03 16:13:55+00:00
Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions




Designing sample-efficient and computationally feasible reinforcement learning (RL) algorithms is particularly challenging in environments with large or infinite state and action spaces. In this paper, we advance this effort by presenting an efficient algorithm for Markov Decision Processes (MDPs) where the state-action value function of any policy is linear in a given feature map. This challenging setting can model environments with infinite states and actions, strictly generalizes classic linear MDPs, and currently lacks a computationally efficient algorithm under online access to the MDP. Specifically, we introduce a new RL algorithm that efficiently finds a near-optimal policy in this setting, using a number of episodes and calls to a cost-sensitive classification (CSC) oracle that are both polynomial in the problem parameters. Notably, our CSC oracle can be efficiently implemented when the feature dimension is constant, representing a clear improvement over state-of-the-art methods, which require solving non-convex problems with horizon-many variables and can incur computational costs that are exponential in the horizon.


著者 Zakaria Mhammedi
発行日 2024-10-03 16:23:07+00:00
Plots Unlock Time-Series Understanding in Multimodal Models




While multimodal foundation models can now natively work with data beyond text, they remain underutilized in analyzing the considerable amounts of multi-dimensional time-series data in fields like healthcare, finance, and social sciences, representing a missed opportunity for richer, data-driven insights. This paper proposes a simple but effective method that leverages the existing vision encoders of these models to ‘see’ time-series data via plots, avoiding the need for additional, potentially costly, model training. Our empirical evaluations show that this approach outperforms providing the raw time-series data as text, with the additional benefit that visual time-series representations demonstrate up to a 90% reduction in model API costs. We validate our hypothesis through synthetic data tasks of increasing complexity, progressing from simple functional form identification on clean data, to extracting trends from noisy scatter plots. To demonstrate generalizability from synthetic tasks with clear reasoning steps to more complex, real-world scenarios, we apply our approach to consumer health tasks – specifically fall detection, activity recognition, and readiness assessment – which involve heterogeneous, noisy data and multi-step reasoning. The overall success in plot performance over text performance (up to an 120% performance increase on zero-shot synthetic tasks, and up to 150% performance increase on real-world tasks), across both GPT and Gemini model families, highlights our approach’s potential for making the best use of the native capabilities of foundation models.


著者 Mayank Daswani,Mathias M. J. Bellaiche,Marc Wilson,Desislav Ivanov,Mikhail Papkov,Eva Schnider,Jing Tang,Kay Lamerigts,Gabriela Botea,Michael A. Sanchez,Yojan Patel,Shruthi Prabhakara,Shravya Shetty,Umesh Telang
発行日 2024-10-03 16:23:13+00:00
EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage


ジェネラリスト型ウェブエージェントは、実際のウェブサイト上で様々なタスクを自律的にこなし、人間の生産性を大幅に向上させるという驚くべき可能性を示してきた。しかしながら、航空券の予約のようなウェブタスクは、通常、ユーザの個人情報に関与しており、ウェブエージェントが誤って危険なウェブサイトと相互作用した場合、潜在的なプライバシーリスクにさらされる可能性がある。本研究では、敵対的環境におけるジェネラリスト型ウェブエージェントのプライバシーリスクに関する初めての研究を実施することで、このギャップを埋める。まず、Webサイトへの攻撃に対する現実的な脅威モデルを提示し、ユーザの特定のPIIを盗む、またはユーザリクエスト全体を盗むという2つの敵対的ターゲットを考える。次に、Environmental Injection Attack (EIA)と呼ばれる新しい攻撃方法を提案する。EIAは、エージェントが動作する環境に適応するように設計された悪意のあるコンテンツを注入し、我々の研究は、ウェブ環境におけるプライバシーシナリオのために特別にEIAをインスタンス化する。我々は、Mind2Webの現実的なウェブサイト上の多様なPIIカテゴリを含む177のアクションステップを収集し、今日まで最も有能なジェネラリストウェブエージェントフレームワークの1つを使用して実験を実施した。その結果、EIAは特定のPIIを盗む際に最大70%のASRを達成し、完全なユーザリクエストに対しては16%のASRを達成することが実証された。さらに、ステルス性にアクセスし、防御システムのプロンプトを実験することで、EIAは検出および軽減が困難であることを示す。注目すべきは、ウェブページにうまく適応していない攻撃は、人間の検査によって検出することができ、セキュリティと自律性の間のトレードオフについての議論につながる。しかし、攻撃者の余分な努力はEIAをシームレスに適応させることができ、そのような監視は効果がない。従って、我々はさらに、人間の監視に依存しないウェブサイトの展開前と展開後の段階における防御について議論し、より高度な防御戦略を呼びかける。


Generalist web agents have demonstrated remarkable potential in autonomously completing a wide range of tasks on real websites, significantly boosting human productivity. However, web tasks, such as booking flights, usually involve users’ PII, which may be exposed to potential privacy risks if web agents accidentally interact with compromised websites, a scenario that remains largely unexplored in the literature. In this work, we narrow this gap by conducting the first study on the privacy risks of generalist web agents in adversarial environments. First, we present a realistic threat model for attacks on the website, where we consider two adversarial targets: stealing users’ specific PII or the entire user request. Then, we propose a novel attack method, termed Environmental Injection Attack (EIA). EIA injects malicious content designed to adapt well to environments where the agents operate and our work instantiates EIA specifically for privacy scenarios in web environments. We collect 177 action steps that involve diverse PII categories on realistic websites from the Mind2Web, and conduct experiments using one of the most capable generalist web agent frameworks to date. The results demonstrate that EIA achieves up to 70% ASR in stealing specific PII and 16% ASR for full user request. Additionally, by accessing the stealthiness and experimenting with a defensive system prompt, we indicate that EIA is hard to detect and mitigate. Notably, attacks that are not well adapted for a webpage can be detected via human inspection, leading to our discussion about the trade-off between security and autonomy. However, extra attackers’ efforts can make EIA seamlessly adapted, rendering such supervision ineffective. Thus, we further discuss the defenses at the pre- and post-deployment stages of the websites without relying on human supervision and call for more advanced defense strategies.


著者 Zeyi Liao,Lingbo Mo,Chejian Xu,Mintong Kang,Jiawei Zhang,Chaowei Xiao,Yuan Tian,Bo Li,Huan Sun
発行日 2024-10-03 16:30:43+00:00
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents


大規模言語モデル(Large Language Models:LLM)を搭載したLLMベースのエージェントは、複雑な実世界のタスクを解決するために外部ツールやメモリ機構を使用することができますが、セキュリティ上の重大な脆弱性をもたらす可能性もあります。しかし、既存の文献では、LLMベースのエージェントに対する攻撃や防御を包括的に評価していません。これを解決するために、我々は、LLMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するために設計された包括的なフレームワークであるエージェントセキュリティベンチ(ASB)を紹介します。このフレームワークには、10のシナリオ(例えば、電子商取引、自律走行、金融)、シナリオをターゲットとする10のエージェント、400以上のツール、23の異なるタイプの攻撃/防御手法、8つの評価指標が含まれます。ASBに基づき、10種類のプロンプトインジェクション攻撃、メモリポイズニング攻撃、新奇なPlan-of-Thoughtバックドア攻撃、混合攻撃、および13のLLMバックボーンに対応する10種類の防御を、合計約90,000のテストケースでベンチマークしました。我々のベンチマークの結果は、システム・プロンプト、ユーザ・プロンプト処理、ツール使用、メモリ検索を含むエージェント操作の異なる段階における重大な脆弱性を明らかにし、84.30%の最高の平均攻撃成功率を示したが、現在の防御では限られた有効性しか示さず、コミュニティのためにエージェント・セキュリティの観点で行うべき重要な作業を明らかにした。我々のコードはhttps://github.com/agiresearch/ASB。


Although LLM-based agents, powered by Large Language Models (LLMs), can use external tools and memory mechanisms to solve complex real-world tasks, they may also introduce critical security vulnerabilities. However, the existing literature does not comprehensively evaluate attacks and defenses against LLM-based agents. To address this, we introduce Agent Security Bench (ASB), a comprehensive framework designed to formalize, benchmark, and evaluate the attacks and defenses of LLM-based agents, including 10 scenarios (e.g., e-commerce, autonomous driving, finance), 10 agents targeting the scenarios, over 400 tools, 23 different types of attack/defense methods, and 8 evaluation metrics. Based on ASB, we benchmark 10 prompt injection attacks, a memory poisoning attack, a novel Plan-of-Thought backdoor attack, a mixed attack, and 10 corresponding defenses across 13 LLM backbones with nearly 90,000 testing cases in total. Our benchmark results reveal critical vulnerabilities in different stages of agent operation, including system prompt, user prompt handling, tool usage, and memory retrieval, with the highest average attack success rate of 84.30\%, but limited effectiveness shown in current defenses, unveiling important works to be done in terms of agent security for the community. Our code can be found at https://github.com/agiresearch/ASB.


著者 Hanrong Zhang,Jingyuan Huang,Kai Mei,Yifei Yao,Zhenting Wang,Chenlu Zhan,Hongwei Wang,Yongfeng Zhang
発行日 2024-10-03 16:30:47+00:00
Undesirable Memorization in Large Language Models: A Survey


最近の研究では、大規模言語モデル(LLM)の優れた能力がますます注目されるようになっているが、その一方で、LLMに隠された落とし穴と向き合うことが不可欠である。これらの課題の中でも、暗記の問題は際立っており、重大な倫理的・法的リスクをもたらしている。本稿では、LLMの暗記に関する知識の体系化(SoK)を紹介する。暗記とは、モデルが学習データからフレーズや文章を記憶し、再現する傾向のことであり、LLMに対する様々なプライバシー攻撃やセキュリティ攻撃の根本的な問題であることが示されている。 本論文では、まず記憶に関する文献を概観し、意図性、程度、検索可能性、抽象性、透明性という5つの主要な次元にわたって、記憶について検討する。次に、暗記を測定するために使用されるメトリクスと方法について説明し、暗記現象の要因について分析する。次に、暗記が特定のモデルアーキテクチャにおいてどのように現れるかを検証し、これらの影響を軽減するための戦略を探る。最後に、LLMの性能とプライバシーのバランスをとるための手法の開発、会話エージェント、検索支援型生成、多言語言語モデル、拡散言語モデルなど、特定のコンテキストにおける記憶化の分析など、近い将来の潜在的な研究テーマを特定することで、本概説を締めくくる。


While recent research increasingly showcases the remarkable capabilities of Large Language Models (LLMs), it’s vital to confront their hidden pitfalls. Among these challenges, the issue of memorization stands out, posing significant ethical and legal risks. In this paper, we presents a Systematization of Knowledge (SoK) on the topic of memorization in LLMs. Memorization is the effect that a model tends to store and reproduce phrases or passages from the training data and has been shown to be the fundamental issue to various privacy and security attacks against LLMs. We begin by providing an overview of the literature on the memorization, exploring it across five key dimensions: intentionality, degree, retrievability, abstraction, and transparency. Next, we discuss the metrics and methods used to measure memorization, followed by an analysis of the factors that contribute to memorization phenomenon. We then examine how memorization manifests itself in specific model architectures and explore strategies for mitigating these effects. We conclude our overview by identifying potential research topics for the near future: to develop methods for balancing performance and privacy in LLMs, and the analysis of memorization in specific contexts, including conversational agents, retrieval-augmented generation, multilingual language models, and diffusion language models.


著者 Ali Satvaty,Suzan Verberne,Fatih Turkmen
発行日 2024-10-03 16:34:46+00:00
