Diffusion-Based Failure Sampling for Evaluating Safety-Critical Autonomous Systems

要約

ロボット工学などの高次元ドメインでの安全性クリティカルな自律システムの検証は、重要な課題を提示します。
マルコフチェーンモンテカルロに基づいた既存のブラックボックスアプローチには、膨大な数のサンプルが必要になる場合がありますが、重要性のサンプリングに基づく方法は、障害の分布を表すのに苦労する可能性のある単純なパラメトリックファミリに依存することがよくあります。
条件付き除去拡散モデルを使用して、障害の分布をサンプリングすることを提案します。これは、ロボットタスク計画などの複雑な高次元問題で成功を示しています。
拡散モデルを繰り返しトレーニングして、障害に近い状態の軌跡を生成します。
高次元のロボット検証タスクに対するアプローチの有効性を実証し、既存のブラックボックス技術と比較してサンプルの効率とモードカバレッジを改善します。

要約(オリジナル)

Validating safety-critical autonomous systems in high-dimensional domains such as robotics presents a significant challenge. Existing black-box approaches based on Markov chain Monte Carlo may require an enormous number of samples, while methods based on importance sampling often rely on simple parametric families that may struggle to represent the distribution over failures. We propose to sample the distribution over failures using a conditional denoising diffusion model, which has shown success in complex high-dimensional problems such as robotic task planning. We iteratively train a diffusion model to produce state trajectories closer to failure. We demonstrate the effectiveness of our approach on high-dimensional robotic validation tasks, improving sample efficiency and mode coverage compared to existing black-box techniques.

arxiv情報

著者 Harrison Delecki,Marc R. Schlichting,Mansur Arief,Anthony Corso,Marcell Vazquez-Chanlatte,Mykel J. Kochenderfer
発行日 2025-05-20 17:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | Diffusion-Based Failure Sampling for Evaluating Safety-Critical Autonomous Systems はコメントを受け付けていません

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas

要約

AIのリスクの検出は、より強力なモデルが出現し、これらの検出試行を回避するためのアライメントフェイクなどの新しい方法を見つけるにつれて、より困難になります。
人間の危険な行動(すなわち、他の人を傷つける可能性のある違法な活動)が強く保持されている価値によって導かれることがあることに触発されて、AIモデル内の値を特定することは、AIの危険な行動の早期警告システムになると考えています。
AI値クラスの範囲でAIモデルの優先順位を明らかにするための評価パイプラインであるLitMusValuesを作成します。
次に、AiriskDilemmasを収集します。これは、PITがパワーシーキングなどのAIの安全性リスクに関連するシナリオで、互いに互いに大評価を重視する多様なコレクションです。
AIモデルの値の優先順位付けを総合的な選択肢を使用して測定することにより、潜在的なリスクを明らかにする予測値の優先順位の自己整合性セットを取得します。
私たちは、litmusvalues(一見無害なものを含む)の値(ケアのような無害なものを含む)が、エアスディレンマスで見た危険な行動と、危害に見えるリスクのない行動の両方を予測できることを示しています。

要約(オリジナル)

Detecting AI risks becomes more challenging as stronger models emerge and find novel methods such as Alignment Faking to circumvent these detection attempts. Inspired by how risky behaviors in humans (i.e., illegal activities that may hurt others) are sometimes guided by strongly-held values, we believe that identifying values within AI models can be an early warning system for AI’s risky behaviors. We create LitmusValues, an evaluation pipeline to reveal AI models’ priorities on a range of AI value classes. Then, we collect AIRiskDilemmas, a diverse collection of dilemmas that pit values against one another in scenarios relevant to AI safety risks such as Power Seeking. By measuring an AI model’s value prioritization using its aggregate choices, we obtain a self-consistent set of predicted value priorities that uncover potential risks. We show that values in LitmusValues (including seemingly innocuous ones like Care) can predict for both seen risky behaviors in AIRiskDilemmas and unseen risky behaviors in HarmBench.

arxiv情報

著者 Yu Ying Chiu,Zhilin Wang,Sharan Maiya,Yejin Choi,Kyle Fish,Sydney Levine,Evan Hubinger
発行日 2025-05-20 17:24:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG | Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas はコメントを受け付けていません

Improving Medium Range Severe Weather Prediction through Transformer Post-processing of AI Weather Forecasts

要約

中距離(1〜8日)の厳しい気象予測のスキルを向上させることは、社会的影響を緩和するために重要です。
この研究では、デコーダーのみのトランスネットワークを活用する新しいアプローチを、特にPangue-Weatherモデルからの後処理AIベースの気象予測に、厳しい気象ガイダンスを改善するための新しいアプローチを紹介します。
密なニューラルネットワークを使用して離散予測サンプルを使用して厳しい気象の確率を予測する従来の後処理方法とは異なり、私たちの方法は、リードタイムを「トークン」と予測し、変圧器が進化する大気状態内の複雑な時間的関係を学習できるようにします。
このアプローチを、従来の高密度ニューラルネットワークと当社の変圧器の両方を使用して、グローバル予測システム(GFS)の後処理と比較し、Pangue-Weather AIモデルの使用の影響を公正に評価するための対流パラメーターを除外する構成と比較します。
結果は、変圧器ベースのポストプロセッシングが高密度のニューラルネットワークと比較して予測スキルを大幅に向上させることを示しています。
さらに、AI駆動型の予測、特に高解像度分析から初期化されたPangue-Weatherは、明示的な対流パラメーターがなくても、中距離でGFSに対して優れたパフォーマンスを示します。
私たちのアプローチは、精度と信頼性の向上を提供します。これは、特徴の帰属分析を通じて解釈可能性を提供し、中距離の厳しい気象予測機能を促進します。

要約(オリジナル)

Improving the skill of medium-range (1-8 day) severe weather prediction is crucial for mitigating societal impacts. This study introduces a novel approach leveraging decoder-only transformer networks to post-process AI-based weather forecasts, specifically from the Pangu-Weather model, for improved severe weather guidance. Unlike traditional post-processing methods that use a dense neural network to predict the probability of severe weather using discrete forecast samples, our method treats forecast lead times as sequential “tokens”, enabling the transformer to learn complex temporal relationships within the evolving atmospheric state. We compare this approach against post-processing of the Global Forecast System (GFS) using both a traditional dense neural network and our transformer, as well as configurations that exclude convective parameters to fairly evaluate the impact of using the Pangu-Weather AI model. Results demonstrate that the transformer-based post-processing significantly enhances forecast skill compared to dense neural networks. Furthermore, AI-driven forecasts, particularly Pangu-Weather initialized from high resolution analysis, exhibit superior performance to GFS in the medium-range, even without explicit convective parameters. Our approach offers improved accuracy, and reliability, which also provides interpretability through feature attribution analysis, advancing medium-range severe weather prediction capabilities.

arxiv情報

著者 Zhanxiang Hua,Ryan Sobash,David John Gagne II,Yingkai Sha,Alexandra Anderson-Frey
発行日 2025-05-20 17:42:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.ao-ph | Improving Medium Range Severe Weather Prediction through Transformer Post-processing of AI Weather Forecasts はコメントを受け付けていません

Cost-Augmented Monte Carlo Tree Search for LLM-Assisted Planning

要約

LLMSは自由回答形式の推論に優れていますが、彼らはしばしばコストに敏感な計画に苦労し、すべての行動を等しいコストを持っていると扱うか、厳格な予算内にとどまることができません。
この論文では、LLM誘導計画に明示的なコスト認識をもたらす新しいアプローチである、コスト増強モンテカルロツリー検索(CATS)を紹介します。
厳しいコストの制約により、プランナーは実行不可能なソリューションを迅速に識別するようになりますが、緩い制約は最小限のコストの最適化を促進します。
GPT-4.1、Claude-3.7-Sonnet、DeepSeek-R1などのトップLLMを猫のプランナーと対抗して、コストに敏感なシナリオでのパフォーマンスを評価します。
私たちの実験は、GPT-4.1などの生のLLMがしばしば厳しい予算の下でぐらつき、猫は一貫して強力なパフォーマンスを提供し、より高いタスクの成功率とより良いコスト効率を達成することを示唆しています。
CATSは、LLMの推論力を構造化された検索と組み合わせることにより、予算を意識する意思決定のための効果的なソリューションを提供します。

要約(オリジナル)

While LLMs excel at open-ended reasoning, they often struggle with cost-sensitive planning, either treating all actions as having equal cost or failing to stay within strict budgets. In this paper, we introduce Cost-Augmented Monte Carlo Tree Search (CATS), a novel approach that brings explicit cost-awareness into LLM-guided planning. Tight cost constraints push the planner to quickly identify infeasible solutions, while looser constraints encourage optimization for minimal cost. We benchmark top LLMs such as GPT-4.1, Claude-3.7-Sonnet, and DeepSeek-R1, against our CATS planner to evaluate their performance in cost-sensitive scenarios. Our experiments suggest that raw LLMs such as GPT-4.1 often falter under tight budgets, whereas CATS consistently delivers strong performance, achieving higher task success rates and better cost efficiency. CATS provides an effective solution for budget-aware decision-making by combining the reasoning power of LLMs with structured search.

arxiv情報

著者 Zihao Zhang,Fei Liu
発行日 2025-05-20 17:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Cost-Augmented Monte Carlo Tree Search for LLM-Assisted Planning はコメントを受け付けていません

Explainable AI for Securing Healthcare in IoT-Integrated 6G Wireless Networks

要約

ヘルスケアシステムは、高度なワイヤレスネットワークと接続されたデバイスをますます採用するにつれて、医療アプリケーションを保護することが重要になりました。
ロボット外科用ツール、集中治療システム、ウェアラブルモニターなど、医療用モニュアルのインターネットデバイスの統合により、患者ケアが強化されましたが、深刻なセキュリティリスクが導入されました。
これらのデバイスのサイバー攻撃は、外科的エラー、機器の故障、データ侵害など、生命を脅かす結果につながる可能性があります。
ITU IMT 2030ビジョンは、AIおよびクラウド統合を通じてヘルスケアにおける6Gの変革的役割を強調していますが、新しいセキュリティの懸念も提起します。
このホワイトペーパーでは、Shap、Lime、Diceなどの説明可能なAI技術が、6G対応のヘルスケアの脆弱性を明らかにし、防御を強化し、信頼と透明性を向上させることができる方法を探ります。
実験的分析でアプローチをサポートし、有望な結果を強調します。

要約(オリジナル)

As healthcare systems increasingly adopt advanced wireless networks and connected devices, securing medical applications has become critical. The integration of Internet of Medical Things devices, such as robotic surgical tools, intensive care systems, and wearable monitors has enhanced patient care but introduced serious security risks. Cyberattacks on these devices can lead to life threatening consequences, including surgical errors, equipment failure, and data breaches. While the ITU IMT 2030 vision highlights 6G’s transformative role in healthcare through AI and cloud integration, it also raises new security concerns. This paper explores how explainable AI techniques like SHAP, LIME, and DiCE can uncover vulnerabilities, strengthen defenses, and improve trust and transparency in 6G enabled healthcare. We support our approach with experimental analysis and highlight promising results.

arxiv情報

著者 Navneet Kaur,Lav Gupta
発行日 2025-05-20 17:46:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Explainable AI for Securing Healthcare in IoT-Integrated 6G Wireless Networks はコメントを受け付けていません

Abacus: A Cost-Based Optimizer for Semantic Operator Systems

要約

LLMSは、非構造化されていないドキュメントの大規模なコレクションを介して、エキサイティングな新しいクラスのデータ処理アプリケーションを有効にします。
いくつかの新しいプログラミングフレームワークにより、開発者はセマンティックオペレーターからそれらを作成することにより、これらのアプリケーションを構築できるようになりました。これは、自然言語仕様を使用したAI搭載のデータ変換の宣言セットです。
これらには、情報抽出、要約などのドキュメント処理タスクに使用されるLLM駆動のマップ、フィルター、結合などが含まれます。
セマンティックオペレーターのシステムはベンチマークで強力なパフォーマンスを達成していますが、最適化するのが難しい場合があります。
この設定のオプティマイザーは、システムをグローバルに最適化する方法で各セマンティックオペレーターを物理的に実装する方法を決定する必要があります。
既存のオプティマイザーは、適用できる最適化の数が限られており、ほとんど(すべてではないにしても)は、他の次元の制約の対象となるシステムの品質、コスト、またはレイテンシを最適化することはできません。
この論文では、(おそらく制約されている)最適化目標を考慮して、セマンティックオペレーターシステムの最良の実装を検索する、拡張可能なコストベースのオプティマイザーであるAbacusを紹介します。
Abacusは、最小限の検証例を活用することにより、オペレーターのパフォーマンスに関する以前の信念を活用することにより、オペレーターのパフォーマンスを推定します。
生物医学および法的ドメイン(BioDex; CUAD)およびマルチモーダル質問応答(MMQA)のドキュメント処理ワークロードでAbacusを評価します。
Abacusによって最適化されたシステムは、次の最高のシステムよりも18.7%-39.2%の品質と最大23.6倍の低コストと4.2倍低いレイテンシを達成することを実証します。

要約(オリジナル)

LLMs enable an exciting new class of data processing applications over large collections of unstructured documents. Several new programming frameworks have enabled developers to build these applications by composing them out of semantic operators: a declarative set of AI-powered data transformations with natural language specifications. These include LLM-powered maps, filters, joins, etc. used for document processing tasks such as information extraction, summarization, and more. While systems of semantic operators have achieved strong performance on benchmarks, they can be difficult to optimize. An optimizer for this setting must determine how to physically implement each semantic operator in a way that optimizes the system globally. Existing optimizers are limited in the number of optimizations they can apply, and most (if not all) cannot optimize system quality, cost, or latency subject to constraint(s) on the other dimensions. In this paper we present Abacus, an extensible, cost-based optimizer which searches for the best implementation of a semantic operator system given a (possibly constrained) optimization objective. Abacus estimates operator performance by leveraging a minimal set of validation examples and, if available, prior beliefs about operator performance. We evaluate Abacus on document processing workloads in the biomedical and legal domains (BioDEX; CUAD) and multi-modal question answering (MMQA). We demonstrate that systems optimized by Abacus achieve 18.7%-39.2% better quality and up to 23.6x lower cost and 4.2x lower latency than the next best system.

arxiv情報

著者 Matthew Russo,Sivaprasad Sudhir,Gerardo Vitagliano,Chunwei Liu,Tim Kraska,Samuel Madden,Michael Cafarella
発行日 2025-05-20 17:49:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, H.2.4 | Abacus: A Cost-Based Optimizer for Semantic Operator Systems はコメントを受け付けていません

KeyDiff: Key Similarity-Based KV Cache Eviction for Long-Context LLM Inference in Resource-Constrained Environments

要約

LLM推論中の幾何学的に特徴的なキーが高い注意スコアを持つ傾向があることを実証します。
この現象に基づいて、Keydiffを提案します。KeyDiffは、主要な類似性のみに基づいて、トレーニングフリーKVキャッシュ立ち退き方法です。
他のKVキャッシュの立ち退き方法とは異なり、KeyDiffは厳格なリソース制約内で任意に長いプロンプトを処理し、応答を効率的に生成できます。
キーの多様性を注意スコアに関連付けることにより、KeyDiffの理論的根拠を提供します。
これらの結果は、KeyDiffが保持する最も重要なトークンを効率的に識別できることを意味します。
特に、KeyDiffは注意スコアに依存せず、Flashattentionなどの最適化された注意メカニズムを使用できます。
厳格な記憶手当の下で、Llama 3.1-8BおよびLlama 3.2-3Bのロングベンチの非避けたベースラインから8Kキャッシュ予算($ \ SIM $ 23%kVキャッシュ削減)で0.04%未満のパフォーマンスギャップを観察することにより、LlamaおよびQwenモデルファミリーのKeyDiffの有効性を実証します。
また、Math500推論ベンチマークでDeepSeek-R1-Distill-Lalama-8Bのベースラインパフォーマンスに近いパフォーマンスを観察し、他のトークンevictionメソッドと比較して、エンドツーエンドの推論のレイテンシを最大30%減少させます。

要約(オリジナル)

We demonstrate that geometrically distinctive keys during LLM inference tend to have high attention scores. Based on the phenomenon we propose KeyDiff, a training-free KV cache eviction method based solely on key similarity. Unlike other KV cache eviction methods, KeyDiff can process arbitrarily long prompts within strict resource constraints and efficiently generate responses. We provide a theoretical basis for KeyDiff by relating key diversity with attention scores. These results imply KeyDiff can efficiently identify the most important tokens to retain. Notably KeyDiff does not rely on attention scores, allowing the use of optimized attention mechanisms like FlashAttention. Under a strict memory allowance, we demonstrate the effectiveness of KeyDiff for the Llama and Qwen model families by observing a performance gap of less than 0.04% with 8K cache budget ($\sim$23% KV cache reduction) from the non-evicting baseline on LongBench for Llama 3.1-8B and Llama 3.2-3B. We also observe near baseline performance for Deepseek-R1-Distill-Llama-8B on the Math500 reasoning benchmark and decrease end-to-end inference latency by up to 30% compared to the other token-eviction methods.

arxiv情報

著者 Junyoung Park,Dalton Jones,Matthew J Morse,Raghavv Goel,Mingu Lee,Chris Lott
発行日 2025-05-20 17:50:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | KeyDiff: Key Similarity-Based KV Cache Eviction for Long-Context LLM Inference in Resource-Constrained Environments はコメントを受け付けていません

Early Risk Prediction of Pediatric Cardiac Arrest from Electronic Health Records via Multimodal Fused Transformer

要約

小児心臓停止(CA)の早期予測は、高リスクの集中治療室でのタイムリーな介入にとって重要です。
EHRの表形式ビューとEHRの派生テキストビューを融合して、高次元の危険因子とそのダイナミクスの相互作用を完全に解き放つために、派生したテキストビューと融合する新しいトランスベースのフレームワークであるPedca-FTを紹介します。
各モダリティビューに専用の変圧器モジュールを使用することにより、PEDCA-FTは複雑な時間的およびコンテキストパターンをキャプチャして、堅牢なCAリスク推定値を生成します。
CHOA-CICUデータベースからキュレーションされた小児コホートで評価されたこのアプローチは、5つの主要なパフォーマンスメトリックにわたって10の他の人工知能モデルを上回り、臨床的に意味のあるリスク要因を特定します。
これらの発見は、早期のCA検出を強化し、患者ケアを改善するためのマルチモーダル融合技術の可能性を強調しています。

要約(オリジナル)

Early prediction of pediatric cardiac arrest (CA) is critical for timely intervention in high-risk intensive care settings. We introduce PedCA-FT, a novel transformer-based framework that fuses tabular view of EHR with the derived textual view of EHR to fully unleash the interactions of high-dimensional risk factors and their dynamics. By employing dedicated transformer modules for each modality view, PedCA-FT captures complex temporal and contextual patterns to produce robust CA risk estimates. Evaluated on a curated pediatric cohort from the CHOA-CICU database, our approach outperforms ten other artificial intelligence models across five key performance metrics and identifies clinically meaningful risk factors. These findings underscore the potential of multimodal fusion techniques to enhance early CA detection and improve patient care.

arxiv情報

著者 Jiaying Lu,Stephanie R. Brown,Songyuan Liu,Shifan Zhao,Kejun Dong,Del Bold,Michael Fundora,Alaa Aljiffry,Alex Fedorov,Jocelyn Grunwell,Xiao Hu
発行日 2025-05-20 17:53:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Early Risk Prediction of Pediatric Cardiac Arrest from Electronic Health Records via Multimodal Fused Transformer はコメントを受け付けていません

SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment

要約

大規模な推論モデル(LRM)は、複雑な問題解決のための強力なツールになりましたが、それらの構造化された推論経路は、有害なプロンプトにさらされると危険な出力につながる可能性があります。
既存の安全アライメント方法は、有害な出力を減少させますが、推論の深さを分解し、複雑なマルチステップタスクの大幅なトレードオフにつながり、洗練された脱獄攻撃に対して脆弱なままです。
これに対処するために、SafePathを紹介します。これは、有害なプロセスを監視していない残りの推論プロセスを残しながら、有害なプロンプトに対応して、推論の開始時にLRMを微調整する軽量アライメント方法です。
複数のベンチマークにわたる経験的結果は、SafePathが推論パフォーマンスを維持しながら有害な出力を効果的に減らすことを示しています。
具体的には、SafePathは有害な反応を最大90.0%減らし、DeepSeek-R1-Distill-Llama-8Bモデルでの脱獄の試みの83.3%をブロックしますが、直接拒否よりも295.9倍の計算量が少なく、セーフチェーンよりも314.1x少ないことが必要です。
さらに、微調整を必要としないゼロショットバリアントを紹介します。
さらに、LLMSの既存のメソッドが、推論中心のモデルに適用された場合にどのように一般化または失敗するかについての包括的な分析を提供し、より安全なAIの重要なギャップと新しい方向性を明らかにします。

要約(オリジナル)

Large Reasoning Models (LRMs) have become powerful tools for complex problem solving, but their structured reasoning pathways can lead to unsafe outputs when exposed to harmful prompts. Existing safety alignment methods reduce harmful outputs but can degrade reasoning depth, leading to significant trade-offs in complex, multi-step tasks, and remain vulnerable to sophisticated jailbreak attacks. To address this, we introduce SAFEPATH, a lightweight alignment method that fine-tunes LRMs to emit a short, 8-token Safety Primer at the start of their reasoning, in response to harmful prompts, while leaving the rest of the reasoning process unsupervised. Empirical results across multiple benchmarks indicate that SAFEPATH effectively reduces harmful outputs while maintaining reasoning performance. Specifically, SAFEPATH reduces harmful responses by up to 90.0% and blocks 83.3% of jailbreak attempts in the DeepSeek-R1-Distill-Llama-8B model, while requiring 295.9x less compute than Direct Refusal and 314.1x less than SafeChain. We further introduce a zero-shot variant that requires no fine-tuning. In addition, we provide a comprehensive analysis of how existing methods in LLMs generalize, or fail, when applied to reasoning-centric models, revealing critical gaps and new directions for safer AI.

arxiv情報

著者 Wonje Jeung,Sangyeon Yoon,Minsuk Kahng,Albert No
発行日 2025-05-20 17:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment はコメントを受け付けていません

ContextAgent: Context-Aware Proactive LLM Agents with Open-World Sensory Perceptions

要約

大規模な言語モデル(LLMS)の最近の進歩により、インテリジェントなエージェントがリアクティブな応答から積極的なサポートへの推進されています。
有望なことに、既存のプロアクティブエージェントは、直接LLM推論を備えた囲まれた環境(デスクトップUIなど)からの観測にのみ依存するか、ルールベースのプロアクティブ通知を採用し、ユーザーの意図とプロアクティブサービスの制限された機能につながります。
この論文では、LLMエージェントのプロアクティブな機能を強化するための広範な感覚コンテキストを組み込んだ最初のコンテキスト対応プロアクティブエージェントであるContextAgentを紹介します。
ContextAgentは、最初に、ユーザーの意図を理解するために、ウェアラブル(ビデオやオーディオなど)の大規模な感覚認識から多次元コンテキストを抽出します。
ContextAgentは、歴史的データから感覚コンテキストとペルソナのコンテキストを活用して、積極的なサービスの必要性を予測します。
積極的な支援が必要な場合、ContextAgentはさらに、ユーザーを控えめに支援するために必要なツールを自動的に呼び出します。
この新しいタスクを評価するために、コンテキストを認識しているプロアクティブLLMエージェントを評価するための最初のベンチマークであるContextAgentBenchをキュレートし、毎日9つのシナリオと20のツールにわたって1,000のサンプルをカバーします。
ContextAgentBenchでの実験は、コンテキストアジェントが、それぞれプロアクティブな予測とツール呼び出しで最大8.5%および6.0%高い精度を達成することにより、ベースラインを上回ることを示しています。
私たちの研究が、より高度で人間中心の積極的なAIアシスタントの開発を促すことを願っています。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have propelled intelligent agents from reactive responses to proactive support. While promising, existing proactive agents either rely exclusively on observations from enclosed environments (e.g., desktop UIs) with direct LLM inference or employ rule-based proactive notifications, leading to suboptimal user intent understanding and limited functionality for proactive service. In this paper, we introduce ContextAgent, the first context-aware proactive agent that incorporates extensive sensory contexts to enhance the proactive capabilities of LLM agents. ContextAgent first extracts multi-dimensional contexts from massive sensory perceptions on wearables (e.g., video and audio) to understand user intentions. ContextAgent then leverages the sensory contexts and the persona contexts from historical data to predict the necessity for proactive services. When proactive assistance is needed, ContextAgent further automatically calls the necessary tools to assist users unobtrusively. To evaluate this new task, we curate ContextAgentBench, the first benchmark for evaluating context-aware proactive LLM agents, covering 1,000 samples across nine daily scenarios and twenty tools. Experiments on ContextAgentBench show that ContextAgent outperforms baselines by achieving up to 8.5% and 6.0% higher accuracy in proactive predictions and tool calling, respectively. We hope our research can inspire the development of more advanced, human-centric, proactive AI assistants.

arxiv情報

著者 Bufang Yang,Lilin Xu,Liekang Zeng,Kaiwei Liu,Siyang Jiang,Wenrui Lu,Hongkai Chen,Xiaofan Jiang,Guoliang Xing,Zhenyu Yan
発行日 2025-05-20 17:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | ContextAgent: Context-Aware Proactive LLM Agents with Open-World Sensory Perceptions はコメントを受け付けていません