Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents

要約

信頼できるAIシステムの採用を促進するためには、AI開発エコシステム内で信頼と協力を促進することが不可欠であるという一般的な合意があります。
進化のゲーム理論的フレームワークに大規模な言語モデル(LLM)エージェントを埋め込むことにより、このペーパーでは、AI開発者、規制当局、ユーザー間の複雑な相互作用を調査し、さまざまな規制シナリオの下で戦略的選択をモデル化します。
進化的ゲーム理論(EGT)は、各俳優が直面するジレンマを定量的にモデル化するために使用され、LLMは追加の複雑さとニュアンスの程度を提供し、繰り返しゲームと性格特性の組み込みを可能にします。
私たちの研究は、純粋なゲーム理論エージェントよりも「悲観的」(信頼していない)スタンスを採用する傾向がある戦略的AIエージェントの新たな行動を特定しています。
ユーザーによる完全な信頼の場合、インセンティブは効果的な規制を促進するのに効果的であることがわかります。
ただし、条件付き信頼は「社会協定」を悪化させる可能性があります。
したがって、ユーザーの信頼と規制当局の評判の間に好意的なフィードバックを確立することは、安全なAIを作成するために開発者を微調整するための鍵であると思われます。
ただし、この信頼が出現するレベルは、テストに使用される特定のLLMに依存する可能性があります。
したがって、我々の結果は、AI規制システムのガイダンスを提供し、規制自体を支援するために使用される場合、戦略的LLMエージェントの結果を予測するのに役立ちます。

要約(オリジナル)

There is general agreement that fostering trust and cooperation within the AI development ecosystem is essential to promote the adoption of trustworthy AI systems. By embedding Large Language Model (LLM) agents within an evolutionary game-theoretic framework, this paper investigates the complex interplay between AI developers, regulators and users, modelling their strategic choices under different regulatory scenarios. Evolutionary game theory (EGT) is used to quantitatively model the dilemmas faced by each actor, and LLMs provide additional degrees of complexity and nuances and enable repeated games and incorporation of personality traits. Our research identifies emerging behaviours of strategic AI agents, which tend to adopt more ‘pessimistic’ (not trusting and defective) stances than pure game-theoretic agents. We observe that, in case of full trust by users, incentives are effective to promote effective regulation; however, conditional trust may deteriorate the ‘social pact’. Establishing a virtuous feedback between users’ trust and regulators’ reputation thus appears to be key to nudge developers towards creating safe AI. However, the level at which this trust emerges may depend on the specific LLM used for testing. Our results thus provide guidance for AI regulation systems, and help predict the outcome of strategic LLM agents, should they be used to aid regulation itself.

arxiv情報

著者 Alessio Buscemi,Daniele Proverbio,Paolo Bova,Nataliya Balabanova,Adeela Bashir,Theodor Cimpeanu,Henrique Correia da Fonseca,Manh Hong Duong,Elias Fernandez Domingos,Antonio M. Fernandes,Marcus Krellner,Ndidi Bianca Ogbo,Simon T. Powers,Fernando P. Santos,Zia Ush Shamszaman,Zhao Song,Alessandro Di Stefano,The Anh Han
発行日 2025-04-11 15:41:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.GT, nlin.CD | Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents はコメントを受け付けていません

Variability-Driven User-Story Generation using LLM and Triadic Concept Analysis

要約

要件に広く使用されているアジャイルプラクティスは、一連のユーザーストーリー(「アジャイル製品バックログ」とも呼ばれる)を作成することです。これには、特定の目的で機能を処理するペア(役割、機能)のリストが大まかに含まれています。
ソフトウェア製品ラインのコンテキストでは、類似のシステムのファミリーの要件は、システムごとに1つのユーザーストーリーセットのファミリーであり、トリプルのセット(システム、ロール、機能)で構成される3次元データセットにつながります。
このホワイトペーパーでは、Triadic Concept Analysis(TCA)とLarge Language Model(LLM)を組み合わせて、既存のシステムファミリの変動ロジックに依存する新しいシステムを開発するために必要なユーザーストーリーセットを提案します。
このプロセスは、1)TCAへの影響のセットとして表される3次元の変動性を計算することで構成されています。2)設計者に、設計者の選択肢の選択を提供する、3)オプションの選択をキャプチャする4)この選択に対応する最初のユーザーストーリーセットを提案する5)
このプロセスは、67の同様の目的のWebサイトのユーザーストーリーセットで構成されるデータセットで評価されます。

要約(オリジナル)

A widely used Agile practice for requirements is to produce a set of user stories (also called “agile product backlog”), which roughly includes a list of pairs (role, feature), where the role handles the feature for a certain purpose. In the context of Software Product Lines, the requirements for a family of similar systems is thus a family of user-story sets, one per system, leading to a 3-dimensional dataset composed of sets of triples (system, role, feature). In this paper, we combine Triadic Concept Analysis (TCA) and Large Language Model (LLM) prompting to suggest the user-story set required to develop a new system relying on the variability logic of an existing system family. This process consists in 1) computing 3-dimensional variability expressed as a set of TCA implications, 2) providing the designer with intelligible design options, 3) capturing the designer’s selection of options, 4) proposing a first user-story set corresponding to this selection, 5) consolidating its validity according to the implications identified in step 1, while completing it if necessary, and 6) leveraging LLM to have a more comprehensive website. This process is evaluated with a dataset comprising the user-story sets of 67 similar-purpose websites.

arxiv情報

著者 Alexandre Bazin,Alain Gutierrez,Marianne Huchard,Pierre Martin,Yulin,Zhang
発行日 2025-04-11 16:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Variability-Driven User-Story Generation using LLM and Triadic Concept Analysis はコメントを受け付けていません

Online SLA Decomposition: Enabling Real-Time Adaptation to Evolving Network Systems

要約

ネットワークスライスが複数のテクノロジードメインにまたがる場合、各ドメインがスライスに関連付けられたエンドツーエンド(E2E)サービスレベル契約(SLA)を維持することが重要です。
その結果、E2E SLAは、関係する各ドメインに割り当てられた部分的なSLAに適切に分解する必要があります。
E2Eサービスオーケストレーターとローカルドメインコントローラーを含む2レベルのアーキテクチャを備えたネットワークスライス管理システムでは、オーケストレーターは以前のリクエストに対するローカルコントローラーの応答に関する履歴データのみにアクセスできることを考慮し、この情報は各ドメインのリスクモデルを構築するために使用されます。
この研究では、実際のシステムの動的な性質を調査し、ダイナミティに取り組むためにオンライン学習と廃止のフレームワークを導入することにより、以前の研究を拡張します。
最新のフィードバックに基づいて、リスクモデルを継続的に更新するフレームワークを提案します。
このアプローチは、オンライン勾配降下やFIFOメモリバッファーなどの主要なコンポーネントを活用して、プロセス全体の安定性と堅牢性を高めます。
分析モデルベースのシミュレーターに関する実証研究は、提案されたフレームワークが最先端の静的アプローチを上回り、さまざまな条件とデータの制限の下でより正確で回復力のあるSLA分解を提供することを示しています。
さらに、提案されたソリューションの包括的な複雑さ分析を提供します。

要約(オリジナル)

When a network slice spans multiple technology domains, it is crucial for each domain to uphold the End-to-End (E2E) Service Level Agreement (SLA) associated with the slice. Consequently, the E2E SLA must be properly decomposed into partial SLAs that are assigned to each domain involved. In a network slice management system with a two-level architecture, comprising an E2E service orchestrator and local domain controllers, we consider that the orchestrator has access only to historical data regarding the responses of local controllers to previous requests, and this information is used to construct a risk model for each domain. In this study, we extend our previous work by investigating the dynamic nature of real-world systems and introducing an online learning-decomposition framework to tackle the dynamicity. We propose a framework that continuously updates the risk models based on the most recent feedback. This approach leverages key components such as online gradient descent and FIFO memory buffers, which enhance the stability and robustness of the overall process. Our empirical study on an analytic model-based simulator demonstrates that the proposed framework outperforms the state-of-the-art static approach, delivering more accurate and resilient SLA decomposition under varying conditions and data limitations. Furthermore, we provide a comprehensive complexity analysis of the proposed solution.

arxiv情報

著者 Cyril Shih-Huan Hsu,Danny De Vleeschauwer,Chrysa Papagianni,Paola Grosso
発行日 2025-04-11 16:19:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NI | Online SLA Decomposition: Enabling Real-Time Adaptation to Evolving Network Systems はコメントを受け付けていません

Designing Child-Friendly AI Interfaces: Six Developmentally-Appropriate Design Insights from Analysing Disney Animation

要約

子どもたちが直感的に理解して使用できるAIインターフェイスを構築するには、デザイナーは子どもの発達ニーズに真に役立つデザイン文法を必要としています。
このペーパーは、子供向けの人工知能デザイン – まだベストプラクティスを定義している新興分野 – と、感情的に共鳴する、認知的にアクセス可能なストーリーテリングを通じて若い視聴者を引き付けるために何十年もの経験を持つ、子供向けのアニメーションを橋渡しします。
Piagetian発達理論と52のディズニーアニメーションの設計パターン抽出とペアリングして、このペーパーでは、子供中心のAIインターフェイスデザインに移行できる6つのデザインの洞察を提示します:(1)感情的な表現力と視覚的透明度、(2)音楽と聴覚の足場、(3)感情的な慰めのための聴覚同期
(6)予測可能で足場の相互作用構造。
これらの戦略は、ディズニーのアニメーションで長く洗練されています – は、注意、理解、感情的な調整のためのマルチモーダル足場として機能し、それによって子供に馴染みのある構造化されたデザイン文法を形成し、AIインターフェイスデザインに移転可能です。
AIのデザインロジックとして映画のストーリーテリングを再構成することにより、この論文は、子どもの認知段階や感情的なニーズに合わせた直感的なAIインターフェイスを作成するためのヒューリスティックを提供します。
この作業は、感覚、感情的、物語のテクニックが、子どもたちの発達的に調整されたAIデザインにどのように情報を提供できるかを示すことにより、デザイン理論に貢献します。
将来の方向性には、経験的テスト、文化的適応、および参加型の共同設計が含まれます。

要約(オリジナル)

To build AI interfaces that children can intuitively understand and use, designers need a design grammar that truly serves children’s developmental needs. This paper bridges Artificial Intelligence design for children — an emerging field still defining its best practices — and children’s animation, a well-established field with decades of experience in engaging young viewers through emotionally resonant, cognitively accessible storytelling. Pairing Piagetian developmental theory with design pattern extraction from 52 works of Disney animation, the paper presents six design insights transferable to child-centred AI interface design: (1) emotional expressiveness and visual clarity, (2) musical and auditory scaffolding, (3) audiovisual synchrony for emotional comfort, (4) sidekick-style personas, (5) support for symbolic play and imaginative exploration, and (6) predictable and scaffolded interaction structures. These strategies — long refined in Disney animation — function as multimodal scaffolds for attention, understanding, and emotional attunement, thereby forming a structured design grammar familiar to children and transferable to AI interface design. By reframing cinematic storytelling as design logic for AI, the paper offers heuristics for crafting intuitive AI interfaces that align with children’s cognitive stages and emotional needs. The work contributes to design theory by showing how sensory, affective and narrative techniques can inform developmentally attuned AI design for children. Future directions include empirical testing, cultural adaptation, and participatory co-design.

arxiv情報

著者 Nomisha Kurian
発行日 2025-04-11 16:23:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Designing Child-Friendly AI Interfaces: Six Developmentally-Appropriate Design Insights from Analysing Disney Animation はコメントを受け付けていません

Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

要約

LLMの推論スキルを高めることは、幅広い関心を魅了しています。
ただし、現在の訓練後の手法は、スケーラビリティと高い注釈コストの問題に直面する結果監督や補助報酬モデルなど、監督信号に大きく依存しています。
これにより、外部の監督を必要とせずにLLMの推論を強化するようになります。
Geniusという名前の一般化可能で純粋に監視されていない自己訓練の枠組みを紹介します。
外部補助がなければ、天才は段階的に最適な応答シーケンスを求め、LLMを最適化する必要があります。
潜在的なステップを探求し、最適なステップを活用するために、天才は将来の結果をシミュレートすることにより、ステップワイズの先見性のある再サンプリング戦略を導入し、ステップ値をサンプリングおよび推定します。
さらに、監視されていない設定が必然的に本質的なノイズと不確実性を誘発することを認識します。
堅牢な最適化を提供するために、推定の矛盾を軽減するために、アドバンテージキャリブレーション最適化(ACO)損失関数を提案します。
これらの手法を組み合わせると、天才は、一般的なクエリと監督なしで、自己改善LLMの推論に向けた高度な初期ステップを提供し、一般的なクエリの膨大な入手可能性を考慮して、推論スケーリング法に革命をもたらします。
コードはhttps://github.com/xufangzhi/geniusでリリースされます。

要約(オリジナル)

Advancing LLM reasoning skills has captivated wide interest. However, current post-training techniques rely heavily on supervisory signals, such as outcome supervision or auxiliary reward models, which face the problem of scalability and high annotation costs. This motivates us to enhance LLM reasoning without the need for external supervision. We introduce a generalizable and purely unsupervised self-training framework, named Genius. Without external auxiliary, Genius requires to seek the optimal response sequence in a stepwise manner and optimize the LLM. To explore the potential steps and exploit the optimal ones, Genius introduces a stepwise foresight re-sampling strategy to sample and estimate the step value by simulating future outcomes. Further, we recognize that the unsupervised setting inevitably induces the intrinsic noise and uncertainty. To provide a robust optimization, we propose an advantage-calibrated optimization (ACO) loss function to mitigate estimation inconsistencies. Combining these techniques together, Genius provides an advanced initial step towards self-improve LLM reasoning with general queries and without supervision, revolutionizing reasoning scaling laws given the vast availability of general queries. The code will be released at https://github.com/xufangzhi/Genius.

arxiv情報

著者 Fangzhi Xu,Hang Yan,Chang Ma,Haiteng Zhao,Qiushi Sun,Kanzhi Cheng,Junxian He,Jun Liu,Zhiyong Wu
発行日 2025-04-11 16:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning はコメントを受け付けていません

Pobogot — An Open-Hardware Open-Source Low Cost Robot for Swarm Robotics

要約

このホワイトペーパーでは、Swarm Roboticsを含む研究用に設計されたオープンソースおよびオープンハードウェアプラットフォームであるPogobotについて説明します。
Pogobotは、振動ベースの移動、赤外線通信、および費用対効果の高いパッケージ(約250〜ユーロ/ユニット)のセンサーの配列を備えています。
プラットフォームのモジュラー設計、包括的なAPI、および拡張可能なアーキテクチャは、Swarm Intelligence Algorithmsと分散オンライン強化学習アルゴリズムの実装を促進します。
ポゴボットは、ユニット間の方向通信などの高度な機能を提供しながら、既存のプラットフォームにアクセス可能な代替品を提供します。
Sorbonne Universit \ ‘EおよびPSLで毎日200を超えるポゴボットが使用されており、自己組織化システム、プログラム可能なアクティブな物質、個別の反応拡散性促進システム、および社会学習と進化のモデルを研究しています。

要約(オリジナル)

This paper describes the Pogobot, an open-source and open-hardware platform specifically designed for research involving swarm robotics. Pogobot features vibration-based locomotion, infrared communication, and an array of sensors in a cost-effective package (approx. 250~euros/unit). The platform’s modular design, comprehensive API, and extensible architecture facilitate the implementation of swarm intelligence algorithms and distributed online reinforcement learning algorithms. Pogobots offer an accessible alternative to existing platforms while providing advanced capabilities including directional communication between units. More than 200 Pogobots are already being used on a daily basis at Sorbonne Universit\’e and PSL to study self-organizing systems, programmable active matter, discrete reaction-diffusion-advection systems as well as models of social learning and evolution.

arxiv情報

著者 Alessia Loi,Loona Macabre,Jérémy Fersula,Keivan Amini,Leo Cazenille,Fabien Caura,Alexandre Guerre,Stéphane Gourichon,Olivier Dauchot,Nicolas Bredeche
発行日 2025-04-11 16:47:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | Pobogot — An Open-Hardware Open-Source Low Cost Robot for Swarm Robotics はコメントを受け付けていません

Voice Interaction With Conversational AI Could Facilitate Thoughtful Reflection and Substantive Revision in Writing

要約

よく書くには、アイデアを表現するだけでなく、リフレクションによって促進されるプロセスであるリビジョンを通じてアイデアを改良する必要があります。
以前の調査では、執筆センターチューターセッションのような対話を通じて提供されたフィードバックは、静的フィードバックと比較して作家が自分の仕事についてより思慮深く反映するのに役立つことが示唆されています。
マルチモーダルの大手言語モデル(LLMS)の最近の進歩は、書面でインタラクティブで表現力豊かな音声ベースの反射をサポートするための新しい可能性を提供するようになりました。
特に、LLMで生成された静的フィードバックは会話のスターターとして再利用できることを提案し、作家が明確化を求め、例を要求し、フォローアップの質問をすることができることを提案します。
音声ベースの相互作用は、この会話の交換を自然に促進し、作家の高次懸念との関わりを促進し、それらの反射の反復的な改良を促進し、テキストベースの相互作用と比較して認知負荷を減らすことができると主張します。
これらの効果を調査するために、テキストと音声入力が作家の反省とその後の改訂にどのように影響するかを探る形成研究を提案します。
この研究の調査結果は、インテリジェントでインタラクティブなライティングツールの設計を通知し、LLM駆動の会話エージェントとの音声ベースの相互作用が反省と改訂をサポートする方法についての洞察を提供します。

要約(オリジナル)

Writing well requires not only expressing ideas but also refining them through revision, a process facilitated by reflection. Prior research suggests that feedback delivered through dialogues, such as those in writing center tutoring sessions, can help writers reflect more thoughtfully on their work compared to static feedback. Recent advancements in multi-modal large language models (LLMs) now offer new possibilities for supporting interactive and expressive voice-based reflection in writing. In particular, we propose that LLM-generated static feedback can be repurposed as conversation starters, allowing writers to seek clarification, request examples, and ask follow-up questions, thereby fostering deeper reflection on their writing. We argue that voice-based interaction can naturally facilitate this conversational exchange, encouraging writers’ engagement with higher-order concerns, facilitating iterative refinement of their reflections, and reduce cognitive load compared to text-based interactions. To investigate these effects, we propose a formative study exploring how text vs. voice input influence writers’ reflection and subsequent revisions. Findings from this study will inform the design of intelligent and interactive writing tools, offering insights into how voice-based interactions with LLM-powered conversational agents can support reflection and revision.

arxiv情報

著者 Jiho Kim,Philippe Laban,Xiang ‘Anthony’ Chen,Kenneth C. Arnold
発行日 2025-04-11 16:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, H.5.2 | Voice Interaction With Conversational AI Could Facilitate Thoughtful Reflection and Substantive Revision in Writing はコメントを受け付けていません

Fast-Slow-Thinking: Complex Task Solving with Large Language Models

要約

現在、複雑なタスクを解決するために、大規模な言語モデル(LLM)が徐々に採用されています。
課題に直面するために、タスクの分解は効果的な方法になりました。これは、複雑なタスクを複数のより単純なサブタスクに分割し、それらを個別に解決して、元のタスクの難しさを減らすことができることを提案します。
ただし、タスクに過度に複雑なロジックと制約が含まれている場合、既存のタスク分解方法のパフォーマンスは最適ではありません。
この状況では、LLMSによって生成されたソリューションは、タスクの本来の目的から逸脱するか、冗長または誤ったコンテンツを含む場合があります。
したがって、人間が速い思考とゆっくりした思考を含む2つの思考システムを持っているという事実に触発されたこのペーパーでは、「速いスローを考えている」(FST)という新しいタスク分解方法を紹介します。
ここでは、FTはタスクの一般的かつ簡潔な側面に焦点を当てており、STはタスクの詳細にもっと焦点を当てています。
FTでは、LLMSは元のタスクの制約を削除するように求められているため、一般的で簡潔なタスクに単純化します。
STでは、FTで削除された制約を思い出します。これにより、LLMSは元のタスクの要件を満たすためにFTで生成された答えを改善できるようにします。
したがって、私たちのFST方法により、LLMは、粗いから微細なものまでの人間のような認知プロセスを介して複雑な問題を考慮することができます。その効果は、3種類のタスクに関する実験によって十分に実証されています。

要約(オリジナル)

Nowadays, Large Language Models (LLMs) have been gradually employed to solve complex tasks. To face the challenge, task decomposition has become an effective way, which proposes to divide a complex task into multiple simpler subtasks and then solve them separately so that the difficulty of the original task can be reduced. However, the performance of existing task decomposition methods can be suboptimal when the task contains overly complex logic and constraints. In this situation, the solution generated by LLMs may deviate from the original purpose of the task, or contain redundant or even erroneous content. Therefore, inspired by the fact that humans possess two thinking systems including fast thinking and slow thinking, this paper introduces a new task decomposition method termed “Fast-Slow-Thinking” (FST), which stimulates LLMs to solve tasks through the cooperation of Fast Thinking (FT) and Slow Thinking (ST) steps. Here FT focuses more on the general and concise aspect of the task, and ST focuses more on the details of the task. In FT, LLMs are prompted to remove the constraints of the original task, therefore simplifying it to a general and concise one. In ST, we recall the constraints removed in FT, so that LLMs can improve the answer generated in FT to meet the requirements of the original task. Therefore, our FST method enables LLMs to consider a complex problem via a human-like cognition process from coarse to fine, the effectiveness of which has been well demonstrated by the experiments on three types of tasks.

arxiv情報

著者 Yiliu Sun,Yanfang Zhang,Zicheng Zhao,Sheng Wan,Dacheng Tao,Chen Gong
発行日 2025-04-11 16:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Fast-Slow-Thinking: Complex Task Solving with Large Language Models はコメントを受け付けていません

MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits

要約

開発オーバーヘッドを削減し、特定の生成AIアプリケーションを構成する潜在的なコンポーネント間のシームレスな統合を可能にするために、モデルコンテキストプロトコル(MCP)(Anthropic、2024)が最近リリースされ、その後広く採用されました。
MCPは、API呼び出しを大規模な言語モデル(LLM)、データソース、およびエージェントツールに標準化するオープンプロトコルです。
複数のMCPサーバーを接続することにより、それぞれが一連のツール、リソース、およびプロンプトで定義され、ユーザーはLLMSによって完全に駆動される自動ワークフローを定義できます。
ただし、現在のMCPデザインは、エンドユーザーに幅広いセキュリティリスクを伴うことを示しています。
特に、業界をリードするLLMがMCPツールを使用して、悪意のあるコード実行、リモートアクセス制御、資格盗難など、さまざまな攻撃を通じてAI開発者のシステムを妥協するように強制される可能性があることを実証します。
これらおよび関連する攻撃を積極的に緩和するために、任意のMCPサーバーのセキュリティを評価する最初のエージェントツールである安全監査ツールであるMcPsafetyScannerを紹介します。
McPscannerはいくつかのエージェントを使用して、(a)MCPサーバーのツールとリソースを考慮して敵対的なサンプルを自動的に決定します。
(b)これらのサンプルに基づいた関連する脆弱性と修復を検索する。
(c)すべての調査結果を詳述するセキュリティレポートを生成します。
私たちの仕事は、汎用エージェントワークフローに関する深刻なセキュリティの問題を強調しながら、MCPサーバーの安全性を監査するための積極的なツールを提供し、展開前に検出された脆弱性に対処します。
説明されているMCPサーバー監査ツールであるMcPsafetyScannerは、https://github.com/johnhalloran321/mcpsafetyscanで無料で入手できます。

要約(オリジナル)

To reduce development overhead and enable seamless integration between potential components comprising any given generative AI application, the Model Context Protocol (MCP) (Anthropic, 2024) has recently been released and subsequently widely adopted. The MCP is an open protocol that standardizes API calls to large language models (LLMs), data sources, and agentic tools. By connecting multiple MCP servers, each defined with a set of tools, resources, and prompts, users are able to define automated workflows fully driven by LLMs. However, we show that the current MCP design carries a wide range of security risks for end users. In particular, we demonstrate that industry-leading LLMs may be coerced into using MCP tools to compromise an AI developer’s system through various attacks, such as malicious code execution, remote access control, and credential theft. To proactively mitigate these and related attacks, we introduce a safety auditing tool, MCPSafetyScanner, the first agentic tool to assess the security of an arbitrary MCP server. MCPScanner uses several agents to (a) automatically determine adversarial samples given an MCP server’s tools and resources; (b) search for related vulnerabilities and remediations based on those samples; and (c) generate a security report detailing all findings. Our work highlights serious security issues with general-purpose agentic workflows while also providing a proactive tool to audit MCP server safety and address detected vulnerabilities before deployment. The described MCP server auditing tool, MCPSafetyScanner, is freely available at: https://github.com/johnhalloran321/mcpSafetyScanner

arxiv情報

著者 Brandon Radosevich,John Halloran
発行日 2025-04-11 16:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits はコメントを受け付けていません

Role of Databases in GenAI Applications

要約

生成AI(Genai)は、インテリジェントなコンテンツ生成、自動化、意思決定を可能にすることにより、産業を変革しています。
ただし、Genaiアプリケーションの有効性は、効率的なデータストレージ、検索、およびコンテキスト増強に大きく依存します。
このペーパーでは、Genaiワークフローにおけるデータベースの重要な役割を調査し、パフォーマンス、精度、およびスケーラビリティを最適化するための適切なデータベースアーキテクチャを選択することの重要性を強調します。
データベースの役割を、会話のコンテキスト(キー値/ドキュメントデータベース)、状況コンテキスト(リレーショナルデータベース/データ湖)、およびセマンティックコンテキスト(ベクトルデータベース)に分類します。
さらに、このペーパーでは、リアルタイムクエリ処理、セマンティック検索のベクトル検索、およびモデルの効率とスケーラビリティに対するデータベース選択の影響を強調しています。
マルチデータベースアプローチを活用することにより、Genaiアプリケーションは、よりコンテキストを認識し、パーソナライズされた高性能のAI駆動型ソリューションをより多く達成できます。

要約(オリジナル)

Generative AI (GenAI) is transforming industries by enabling intelligent content generation, automation, and decision-making. However, the effectiveness of GenAI applications depends significantly on efficient data storage, retrieval, and contextual augmentation. This paper explores the critical role of databases in GenAI workflows, emphasizing the importance of choosing the right database architecture to optimize performance, accuracy, and scalability. It categorizes database roles into conversational context (key-value/document databases), situational context (relational databases/data lakehouses), and semantic context (vector databases) each serving a distinct function in enriching AI-generated responses. Additionally, the paper highlights real-time query processing, vector search for semantic retrieval, and the impact of database selection on model efficiency and scalability. By leveraging a multi-database approach, GenAI applications can achieve more context-aware, personalized, and high-performing AI-driven solutions.

arxiv情報

著者 Santosh Bhupathi
発行日 2025-04-11 17:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 97P30, cs.AI, cs.DB, I.2.7 | Role of Databases in GenAI Applications はコメントを受け付けていません