Contextual Agent Security: A Policy for Every Purpose

要約

アクションの安全性を判断するには、アクションが行われるコンテキストの知識が必要です。
さまざまな文脈で行動する人間のエージェントにとって、これは明らかなように思えるかもしれません。電子メールの削除などのアクションを実行することは、電子メールのコンテンツ、目標(たとえば、機密電子メールを消去したり、ゴミをクリーンアップするため)、電子メールアドレスの種類(仕事や個人)の種類に応じて適切である場合があります。
人とは異なり、計算システムは、限られたコンテキストでの機関しか限られていませんでした。
したがって、手動で作成されたポリシーとユーザーの確認(たとえば、スマートフォンアプリの許可またはネットワークアクセス制御リストなど)は、不完全ですが、有害なアクションを制限するのに十分です。
ただし、多数のタスク(自動化されたパーソナルアシスタントなど)をサポートするジェネラリストエージェントの今後の展開により、これらのシステムのコンテキストと機能の規模に適応するためにセキュリティデザインを再考する必要があると主張します。
最初のステップとして、このペーパーでは、エージェントのドメインのコンテキストセキュリティを調査し、コンテキストエージェントセキュリティ(ConsecA)を提案します。

要約(オリジナル)

Judging an action’s safety requires knowledge of the context in which the action takes place. To human agents who act in various contexts, this may seem obvious: performing an action such as email deletion may or may not be appropriate depending on the email’s content, the goal (e.g., to erase sensitive emails or to clean up trash), and the type of email address (e.g., work or personal). Unlike people, computational systems have often had only limited agency in limited contexts. Thus, manually crafted policies and user confirmation (e.g., smartphone app permissions or network access control lists), while imperfect, have sufficed to restrict harmful actions. However, with the upcoming deployment of generalist agents that support a multitude of tasks (e.g., an automated personal assistant), we argue that we must rethink security designs to adapt to the scale of contexts and capabilities of these systems. As a first step, this paper explores contextual security in the domain of agents and proposes contextual agent security (Conseca), a framework to generate just-in-time, contextual, and human-verifiable security policies.

arxiv情報

著者 Lillian Tsai,Eugene Bagdasarian
発行日 2025-04-17 17:48:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | コメントする

CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

要約

トレーニング前のデータセットは通常、Webコンテンツから収集され、固有のドメイン部門がありません。
たとえば、Common Crawlのような広く使用されているデータセットには明示的なドメインラベルは含まれていませんが、パイルは労働集約型のようなラベル付きデータセットを手動でキュレーションすることです。
その結果、トレーニング前のパフォーマンスにとって大きな利点にもかかわらず、最適なトレーニング前のデータ混合物を特定することは依然として困難な問題です。
これらの課題に対処するために、クラスタリングベースの反復データ混合ブートストラップ(CRIMB)を提案します。これは、トレーニング前の設定でデータの混合を発見、評価、洗練する自動フレームワークです。
具体的には、セマンティックスペースに大規模なデータセットを埋め込んだり、クラスターしたりしてから、小さなプロキシモデルと予測因子を使用して最適な混合物を繰り返し検索します。
この混合物で400Bのトークンで継続的にトレーニングされると、1Bモデルは最先端のLLAMA-3.2-1Bを2.0%超えています。
さらに、特定のドメイン(たとえば、社会科学)に最適化すると、ランダムサンプリングよりも5%の改善が得られることがわかります。
最後に、調査の遊び場として20個のクラスターを備えたフィルター処理された1.2兆桁のコーパスであるClimblabを紹介します。Crimbmixは、等しいトークン予算の下で優れたパフォーマンスを提供する効率的な事前トレーニング用に設計されたコンパクトでありながら強力な4,000億トークンのデータセットです。
最終的なデータ混合物を分析し、最適なデータ混合の特性を解明します。
データはhttps://research.nvidia.com/labs/lpr/climb/で入手できます。

要約(オリジナル)

Pre-training datasets are typically collected from web content and lack inherent domain divisions. For instance, widely used datasets like Common Crawl do not include explicit domain labels, while manually curating labeled datasets such as The Pile is labor-intensive. Consequently, identifying an optimal pre-training data mixture remains a challenging problem, despite its significant benefits for pre-training performance. To address these challenges, we propose CLustering-based Iterative Data Mixture Bootstrapping (CLIMB), an automated framework that discovers, evaluates, and refines data mixtures in a pre-training setting. Specifically, CLIMB embeds and clusters large-scale datasets in a semantic space and then iteratively searches for optimal mixtures using a smaller proxy model and a predictor. When continuously trained on 400B tokens with this mixture, our 1B model exceeds the state-of-the-art Llama-3.2-1B by 2.0%. Moreover, we observe that optimizing for a specific domain (e.g., Social Sciences) yields a 5% improvement over random sampling. Finally, we introduce ClimbLab, a filtered 1.2-trillion-token corpus with 20 clusters as a research playground, and ClimbMix, a compact yet powerful 400-billion-token dataset designed for efficient pre-training that delivers superior performance under an equal token budget. We analyze the final data mixture, elucidating the characteristics of an optimal data mixture. Our data is available at: https://research.nvidia.com/labs/lpr/climb/

arxiv情報

著者 Shizhe Diao,Yu Yang,Yonggan Fu,Xin Dong,Dan Su,Markus Kliegl,Zijia Chen,Peter Belcak,Yoshi Suhara,Hongxu Yin,Mostofa Patwary,Yingyan,Lin,Jan Kautz,Pavlo Molchanov
発行日 2025-04-17 17:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs

要約

クロスモーダル検索(CMR)は、マルチメディア研究の基本的なタスクであり、異なるモダリティにわたって意味的に関連するターゲットを取得することに焦点を当てています。
従来のCMRメソッドは、埋め込みベースの類似性計算を介してテキストと画像を一致させますが、事前に訓練された生成モデルの最近の進歩により、有望な代替手段として生成検索が確立されました。
このパラダイムは、各ターゲットに一意の識別子を割り当て、生成モデルをレバレッジして、明示的なインデックス付けなしに入力クエリに対応する識別子を直接予測します。
その大きな可能性にもかかわらず、現在の生成CMRアプローチは、識別子の構築プロセスと生成プロセスの両方において、依然としてセマンティック情報不足に直面しています。
これらの制限に対処するために、生成クロスモーダル検索タスクのセマンティック理解機能を解き放つように設計された、新しい統一されたセマンティック強化生成クロスモーダル回収フレームワーク(SEMCORE)を提案します。
具体的には、最初に、ターゲット識別子を自然言語の理解と生成に最適化された生成モデルと効果的に整列させる構造化された自然言語識別子(SID)を構築します。
さらに、微調整されたターゲット差別を可能にする生成セマンティック検証(GSV)戦略を導入します。
さらに、私たちの知る限り、Semcoreは、生成クロスモーダル検索内のテキストから画像への検索タスクの両方を同時に検討する最初のフレームワークです。
広範な実験は、私たちのフレームワークが最先端の生成クロスモーダル検索方法よりも優れていることを示しています。
特に、Semcoreはベンチマークデータセット全体で大幅な改善を達成し、テキストからイメージの検索の場合、Recall@1で平均8.65ポイント増加します。

要約(オリジナル)

Cross-modal retrieval (CMR) is a fundamental task in multimedia research, focused on retrieving semantically relevant targets across different modalities. While traditional CMR methods match text and image via embedding-based similarity calculations, recent advancements in pre-trained generative models have established generative retrieval as a promising alternative. This paradigm assigns each target a unique identifier and leverages a generative model to directly predict identifiers corresponding to input queries without explicit indexing. Despite its great potential, current generative CMR approaches still face semantic information insufficiency in both identifier construction and generation processes. To address these limitations, we propose a novel unified Semantic-enhanced generative Cross-mOdal REtrieval framework (SemCORE), designed to unleash the semantic understanding capabilities in generative cross-modal retrieval task. Specifically, we first construct a Structured natural language IDentifier (SID) that effectively aligns target identifiers with generative models optimized for natural language comprehension and generation. Furthermore, we introduce a Generative Semantic Verification (GSV) strategy enabling fine-grained target discrimination. Additionally, to the best of our knowledge, SemCORE is the first framework to simultaneously consider both text-to-image and image-to-text retrieval tasks within generative cross-modal retrieval. Extensive experiments demonstrate that our framework outperforms state-of-the-art generative cross-modal retrieval methods. Notably, SemCORE achieves substantial improvements across benchmark datasets, with an average increase of 8.65 points in Recall@1 for text-to-image retrieval.

arxiv情報

著者 Haoxuan Li,Yi Bin,Yunshan Ma,Guoqing Wang,Yang Yang,See-Kiong Ng,Tat-Seng Chua
発行日 2025-04-17 17:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.MM | コメントする

Transferrable Surrogates in Expressive Neural Architecture Search Spaces

要約

ニューラルアーキテクチャ検索(NAS)は、そのようなスペースを効果的に検索するためのアーキテクチャの効率的な評価の必要性と、建築的革新を可能にする表現力豊かな幅広い検索スペースの探索のバランスをとる際の課題に直面しています。
コンテキストのない文法に基づいて、非常に表現力のあるNAS検索スペースでの検索を改善するための代理モデルトレーニングを調査します。
i)ゼロコストプロキシメトリックとニューラルグラフ機能(GRAF)を使用してトレーニングされたサロゲートモデルは、既製のLMを微調整することにより、データセット内および超過の両方でアーキテクチャのパフォーマンスのための高い予測力があることを示します。
さらに、膨大なスピードアップの検索目標として直接使用できます。

要約(オリジナル)

Neural architecture search (NAS) faces a challenge in balancing the exploration of expressive, broad search spaces that enable architectural innovation with the need for efficient evaluation of architectures to effectively search such spaces. We investigate surrogate model training for improving search in highly expressive NAS search spaces based on context-free grammars. We show that i) surrogate models trained either using zero-cost-proxy metrics and neural graph features (GRAF) or by fine-tuning an off-the-shelf LM have high predictive power for the performance of architectures both within and across datasets, ii) these surrogates can be used to filter out bad architectures when searching on novel datasets, thereby significantly speeding up search and achieving better final performances, and iii) the surrogates can be further used directly as the search objective for huge speed-ups.

arxiv情報

著者 Shiwen Qin,Gabriela Kadlecová,Martin Pilát,Shay B. Cohen,Roman Neruda,Elliot J. Crowley,Jovita Lukasik,Linus Ericsson
発行日 2025-04-17 14:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

A Phenomenological Approach to Analyzing User Queries in IT Systems Using Heidegger’s Fundamental Ontology

要約

この論文では、Martin Heideggerの基本的なオントロジーに基づいた新しい研究分析ITシステムを紹介し、存在(Das Seiende)と存在(Das Sein)を区別します。
このシステムは、2つの中間的に異なる記述的に完全な言語を採用しています。ユーザー入力を処理するための存在のカテゴリー言語と、内部分析用の実存言語です。
これらの言語は、現象学的削減モジュールを介して橋渡しされ、システムがユーザークエリ(ITスペシャリスト間の質問、回答、対話を含む)を分析し、再帰的および自己言及的構造を特定し、カテゴリの用語で実用的な洞察を提供できるようにします。
カテゴリー分析に限定された現代のシステムとは異なり、このアプローチは、ハイデガーの現象学的実存分析を活用して、クエリ処理のより深いオントロジーパターンを明らかにし、ITコンテキストでの比phorの使用など、複雑な相互作用の論理トラップを解決するのを支援します。
完全な実現への道は、ハイデガーの基本的なオントロジーに基づいた研究チームによる言語を形式化することです。
存在の言語の既存の完全性を考えると、これにより、システムの完全性に対する計算可能性が低下し、ユニバーサルクエリ分析ツールへの道が開かれます。
この論文では、システムのアーキテクチャ、運用原則、技術的実装、ユースケース(実際のITスペシャリストの対話に基づいたケースを含む)を紹介します。

要約(オリジナル)

This paper presents a novel research analytical IT system grounded in Martin Heidegger’s Fundamental Ontology, distinguishing between beings (das Seiende) and Being (das Sein). The system employs two modally distinct, descriptively complete languages: a categorical language of beings for processing user inputs and an existential language of Being for internal analysis. These languages are bridged via a phenomenological reduction module, enabling the system to analyze user queries (including questions, answers, and dialogues among IT specialists), identify recursive and self-referential structures, and provide actionable insights in categorical terms. Unlike contemporary systems limited to categorical analysis, this approach leverages Heidegger’s phenomenological existential analysis to uncover deeper ontological patterns in query processing, aiding in resolving logical traps in complex interactions, such as metaphor usage in IT contexts. The path to full realization involves formalizing the language of Being by a research team based on Heidegger’s Fundamental Ontology; given the existing completeness of the language of beings, this reduces the system’s computability to completeness, paving the way for a universal query analysis tool. The paper presents the system’s architecture, operational principles, technical implementation, use cases–including a case based on real IT specialist dialogues–comparative evaluation with existing tools, and its advantages and limitations.

arxiv情報

著者 Maksim Vishnevskiy
発行日 2025-04-17 14:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.SE | コメントする

What Are the Odds? Improving the foundations of Statistical Model Checking

要約

マルコフ決定プロセス(MDP)は、不確実性の下での意思決定の基本的なモデルです。
それらは、非決定的な選択と確率的不確実性を示します。
従来、検証アルゴリズムは、MDPの動作を支配する確率の正確な知識を想定しています。
この仮定は実際には非現実的であることが多いため、過去20年間に統計モデルチェック(SMC)が開発されました。
未知の遷移確率でMDPを分析し、結果にほぼ正しい(PAC)保証を提供することができます。
モデルベースのSMCアルゴリズムは、MDPをサンプルし、すべての遷移確率を推定することにより、「オッズとは何か」という質問に答えるすべての移行の確率を推定することにより、そのモデルを構築します。しかし、これまでのところ、ART SMCアルゴリズムで採用されている統計的方法は非常に重要です。
私たちの貢献は、これらの方法に対するいくつかの根本的な改善です。一方で、統計学の文献を調査し、集中の不平等を改善します。
一方、MDPの知識を活用する専門的なアプローチを提案します。
私たちの改善は、一般的に多くの種類の問題ステートメントに適用されます。なぜなら、それらは設定から​​大きく独立しているからです。
さらに、実験的評価は、それらが大幅に利益をもたらし、SMCアルゴリズムが収集しなければならないサンプルの数を最大2桁削減することを示しています。

要約(オリジナル)

Markov decision processes (MDPs) are a fundamental model for decision making under uncertainty. They exhibit non-deterministic choice as well as probabilistic uncertainty. Traditionally, verification algorithms assume exact knowledge of the probabilities that govern the behaviour of an MDP. As this assumption is often unrealistic in practice, statistical model checking (SMC) was developed in the past two decades. It allows to analyse MDPs with unknown transition probabilities and provide probably approximately correct (PAC) guarantees on the result. Model-based SMC algorithms sample the MDP and build a model of it by estimating all transition probabilities, essentially for every transition answering the question: “What are the odds?” However, so far the statistical methods employed by the state of the art SMC algorithms are quite naive. Our contribution are several fundamental improvements to those methods: On the one hand, we survey statistics literature for better concentration inequalities; on the other hand, we propose specialised approaches that exploit our knowledge of the MDP. Our improvements are generally applicable to many kinds of problem statements because they are largely independent of the setting. Moreover, our experimental evaluation shows that they lead to significant gains, reducing the number of samples that the SMC algorithm has to collect by up to two orders of magnitude.

arxiv情報

著者 Tobias Meggendorfer,Maximilian Weininger,Patrick Wienhöft
発行日 2025-04-17 14:33:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY | コメントする

Accommodate Knowledge Conflicts in Retrieval-augmented LLMs: Towards Reliable Response Generation in the Wild

要約

大規模な言語モデル(LLMS)の増殖には、特に応答生成(RG)において、情報検索システムが大幅に進歩しています。
残念ながら、LLMはしばしば、誤った情報、バイアス、または時代遅れの知識から生じる内部記憶と取得した外部情報の間の知識の対立に直面しています。
これらの紛争は、対応の信頼性を損ない、意思決定に不確実性をもたらします。
この作業では、LLMSが情報理論的な観点から知識の矛盾をナビゲートする方法を分析し、矛盾した補足情報が有意な違いを示す場合、LLMSが自信を持って好みを解決することを明らかにします。
ただし、区別が曖昧な場合、LLMSは不確実性を高めました。
この洞察に基づいて、バリエーション情報ボトルネックモデルのパイプラインを検索された情報の適応的増強に統合し、応答生成におけるLLM優先を導く新しいフレームワークであるSwin-Vibを提案します。
単一選択、自由回答形式の質問回答(QA)、および検索拡張生成(RAG)に関する広範な実験は、理論的発見を検証し、SWIN-VIBの有効性を実証します。
特に、私たちの方法は、競合ベースラインで少なくとも7.54 \%だけ単一選択タスクの精度を改善します。

要約(オリジナル)

The proliferation of large language models (LLMs) has significantly advanced information retrieval systems, particularly in response generation (RG). Unfortunately, LLMs often face knowledge conflicts between internal memory and retrievaled external information, arising from misinformation, biases, or outdated knowledge. These conflicts undermine response reliability and introduce uncertainty in decision-making. In this work, we analyze how LLMs navigate knowledge conflicts from an information-theoretic perspective and reveal that when conflicting and supplementary information exhibit significant differences, LLMs confidently resolve their preferences. However, when the distinction is ambiguous, LLMs experience heightened uncertainty. Based on this insight, we propose Swin-VIB, a novel framework that integrates a pipeline of variational information bottleneck models into adaptive augmentation of retrieved information and guiding LLM preference in response generation. Extensive experiments on single-choice, open-ended question-answering (QA), and retrieval augmented generation (RAG) validate our theoretical findings and demonstrate the efficacy of Swin-VIB. Notably, our method improves single-choice task accuracy by at least 7.54\% over competitive baselines.

arxiv情報

著者 Jiatai Wang,Zhiwei Xu,Di Jin,Xuewen Yang,Tao Li
発行日 2025-04-17 14:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving

要約

大規模な言語モデル(LLMS)を提供することは、AIを搭載したアプリケーションにとって重要ですが、特にメモリ帯域幅と計算スループットでは、かなりの計算リソースが必要です。
低精度の計算は、リソースの消費を削減しながら効率を改善するための重要な手法として浮上しています。
低精度カーネルを生成するための既存のアプローチは、2つのパワーであり、高レベルのGPUプログラミングの抽象化により最適ではないパフォーマンスに苦しむ重量ビット幅に制限されています。
これらの抽象化は、効率的な低精度計算に不可欠な、微調整されたレジスタ管理や最適化されたメモリアクセスパターンなど、重要な最適化を制限します。
このホワイトペーパーでは、GPUプログラマ性を維持しながら任意のビット幅で低精度のデータ型をサポートできるように、一般的な視点GPU(GPGPU)コンピューティング用に設計された仮想マシン(VM)を紹介します。
提案されているVMは、スレッドブロックレベルのプログラミングモデル、階層メモリスペース、新しい代数レイアウトシステム、および多様な低精度データ型の広範なサポートを備えています。
VMプログラムは、自動ベクトル化と命令選択により、非常に効率的なGPUプログラムにまとめられています。
広範な実験は、当社のVMが低精度データ型の全範囲を効率的にサポートし、サポートされているタイプの最先端の低精度カーネルを上回ることを示しています。
TritonやLadderなどの既存のコンパイラや、QuantllmやMarlinなどの手最適化されたカーネルと比較して、VMはそれぞれ1.75x、2.61x、1.29x、1.03xのパフォーマンス改善を達成します。

要約(オリジナル)

Serving Large Language Models (LLMs) is critical for AI-powered applications but demands substantial computational resources, particularly in memory bandwidth and computational throughput. Low-precision computation has emerged as a key technique to improve efficiency while reducing resource consumption. Existing approaches for generating low-precision kernels are limited to weight bit widths that are powers of two and suffer from suboptimal performance due to high-level GPU programming abstractions. These abstractions restrict critical optimizations, such as fine-grained register management and optimized memory access patterns, which are essential for efficient low-precision computations. In this paper, we introduce a virtual machine (VM) designed for General-Purpose GPU (GPGPU) computing, enabling support for low-precision data types with arbitrary bit widths while maintaining GPU programmability. The proposed VM features a thread-block-level programming model, a hierarchical memory space, a novel algebraic layout system, and extensive support for diverse low-precision data types. VM programs are compiled into highly efficient GPU programs with automatic vectorization and instruction selection. Extensive experiments demonstrate that our VM efficiently supports a full spectrum of low-precision data types, and outperforms state-of-the-art low-precision kernels on their supported types. Compared to existing compilers like Triton and Ladder, as well as hand-optimized kernels such as QuantLLM and Marlin, our VM achieves performance improvements of 1.75x, 2.61x, 1.29x and 1.03x, respectively.

arxiv情報

著者 Yaoyao Ding,Bohan Hou,Xiao Zhang,Allan Lin,Tianqi Chen,Cody Yu Hao,Yida Wang,Gennady Pekhimenko
発行日 2025-04-17 14:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PL | コメントする

The Impact of Environment Configurations on the Stability of AI-Enabled Systems

要約

現在、ソフトウェアシステムには人工知能(AI)コンポーネントが含まれる傾向があります。
運用環境の変化は、行動に意図しない変化を引き起こすことにより、AI対応ソフトウェアシステムの安定性に悪影響を与えることが知られています。
ただし、環境構成がそのようなシステムの動作にどのように影響するかは、まだ調査されていません。
さまざまな環境設定によって引き起こされる不安定性の程度を理解して定量化することで、実務家が最も安定したAIシステムに最適な環境構成を決定するのに役立ちます。
この目標を達成するために、Travis CIプラットフォームを使用して30ドルのオープンソースAI対応システムで、3つの主要環境変数(オペレーティングシステム、Pythonバージョン、CPUアーキテクチャ)の8つの異なる組み合わせを使用して実験を行いました。
3つのメトリックを使用して、各構成によって導入される不安定性の存在と程度を決定します。システムのAIコンポーネント(モデルパフォーマンス)の出力、システムの構築と実行に必要な時間(処理時間)、およびシステムの構築と実行に関連するコスト(費用)です。
我々の結果は、環境構成の変化が3つのメトリックすべてにわたって不安定性につながることを示しています。
ただし、モデルのパフォーマンスではなく、処理時間と費用に関してより頻繁に観察されます。
たとえば、LinuxとMacOSの間で、モデルのパフォーマンス、処理時間、および費用で、それぞれ23 \%、96.67 \%、および100 \%の調査プロジェクトで不安定性が観察されます。
私たちの調査結果は、モデルパフォーマンスの低下を軽減し、AI対応システムを展開する前に処理時間と費用を削減するための構成設定の最適な組み合わせを特定することの重要性を強調しています。

要約(オリジナル)

Nowadays, software systems tend to include Artificial Intelligence (AI) components. Changes in the operational environment have been known to negatively impact the stability of AI-enabled software systems by causing unintended changes in behavior. However, how an environment configuration impacts the behavior of such systems has yet to be explored. Understanding and quantifying the degree of instability caused by different environment settings can help practitioners decide the best environment configuration for the most stable AI systems. To achieve this goal, we performed experiments with eight different combinations of three key environment variables (operating system, Python version, and CPU architecture) on $30$ open-source AI-enabled systems using the Travis CI platform. We determine the existence and the degree of instability introduced by each configuration using three metrics: the output of an AI component of the system (model performance), the time required to build and run the system (processing time), and the cost associated with building and running the system (expense). Our results indicate that changes in environment configurations lead to instability across all three metrics; however, it is observed more frequently with respect to processing time and expense rather than model performance. For example, between Linux and MacOS, instability is observed in 23\%, 96.67\%, and 100\% of the studied projects in model performance, processing time, and expense, respectively. Our findings underscore the importance of identifying the optimal combination of configuration settings to mitigate drops in model performance and reduce the processing time and expense before deploying an AI-enabled system.

arxiv情報

著者 Musfiqur Rahman,SayedHassan Khatoonabadi,Ahmad Abdellatif,Haya Samaana,Emad Shihab
発行日 2025-04-17 14:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | コメントする

A Robust Prototype-Based Network with Interpretable RBF Classifier Foundations

要約

プロトタイプベースの分類学習方法は、本質的に解釈可能であることが知られています。
ただし、このパラダイムには、パフォーマンスの低下などの深いモデルと比較して、大きな制限があります。
これにより、プロトタイプパーツモデルとも呼ばれる、いわゆるディーププロトタイプベースのネットワーク(PBN)の開発につながりました。
この作業では、解釈可能性を含むさまざまなプロパティに関して、これらのモデルを分析します。
特に、確率的モデルを使用して解釈可能性を確保し、浅いまたは深いアーキテクチャとして使用できるようにするコンポーネントごとの分類(CBC)アプローチに焦点を当てています。
このモデルには、矛盾する説明を作成するなど、いくつかの欠点があることを示しています。
これらの調査結果に基づいて、これらの問題を解決するCBCの拡張を提案します。
さらに、この拡張には堅牢性の保証があり、堅牢性を最適化する損失を導き出すことを証明します。
さらに、分析は、ほとんどの(深い)PBNが(深い)RBF分類子に関連していることを示しています。これは、堅牢性が浅いRBF分類子に一般化することを意味します。
経験的評価は、私たちの深いPBNが、他のアプローチの解釈可能性の欠点を解決しながら、さまざまなベンチマークで最先端の分類精度をもたらすことを示しています。
さらに、私たちの浅いPBNバリアントは、本質的に解釈可能であり、証明可能な堅牢性の保証を示しながら、他の浅いPBNよりも優れています。

要約(オリジナル)

Prototype-based classification learning methods are known to be inherently interpretable. However, this paradigm suffers from major limitations compared to deep models, such as lower performance. This led to the development of the so-called deep Prototype-Based Networks (PBNs), also known as prototypical parts models. In this work, we analyze these models with respect to different properties, including interpretability. In particular, we focus on the Classification-by-Components (CBC) approach, which uses a probabilistic model to ensure interpretability and can be used as a shallow or deep architecture. We show that this model has several shortcomings, like creating contradicting explanations. Based on these findings, we propose an extension of CBC that solves these issues. Moreover, we prove that this extension has robustness guarantees and derive a loss that optimizes robustness. Additionally, our analysis shows that most (deep) PBNs are related to (deep) RBF classifiers, which implies that our robustness guarantees generalize to shallow RBF classifiers. The empirical evaluation demonstrates that our deep PBN yields state-of-the-art classification accuracy on different benchmarks while resolving the interpretability shortcomings of other approaches. Further, our shallow PBN variant outperforms other shallow PBNs while being inherently interpretable and exhibiting provable robustness guarantees.

arxiv情報

著者 Sascha Saralajew,Ashish Rana,Thomas Villmann,Ammar Shaker
発行日 2025-04-17 14:56:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする