Efficient Intent-Based Filtering for Multi-Party Conversations Using Knowledge Distillation from LLMs

要約

大規模な言語モデル(LLMS)は、会話型AIの顕著な機能を紹介し、チャットボットのオープンドメイン応答を可能にし、要約、意図分類、洞察の生成などの会話の高度な処理を可能にしています。
ただし、これらのモデルはリソース集約型であり、実質的なメモリと計算能力を要求しています。
これに対処するために、すべてのスニペットを処理するのではなく、ターゲットダウンストリームアプリケーションに合わせたLLM処理の会話型スニペットをフィルタリングする費用対効果の高いソリューションを提案します。
この作業では、LLMSからの知識の蒸留を活用して、マルチパーティ会話の意図ベースのフィルターを開発する革新的なアプローチを導入します。
私たちの方法は、さまざまな戦略を組み合わせて、多様なマルチパーティの会話データセットを作成します。つまり、ターゲットの意図と注釈が付けられ、マルチラベルの意図分類のためにMobileBertモデルを微調整するために使用されます。
このモデルは、効率とパフォーマンスのバランスを達成し、その意図に基づいて会話スニペットを効果的にフィルタリングします。
関連するスニペットのみをLLMに渡すことにより、さらなる処理のために、私たちのアプローチは、実験で実証されているように、意図とデータ分布に応じて全体的な運用コストを大幅に削減します。

要約(オリジナル)

Large language models (LLMs) have showcased remarkable capabilities in conversational AI, enabling open-domain responses in chat-bots, as well as advanced processing of conversations like summarization, intent classification, and insights generation. However, these models are resource-intensive, demanding substantial memory and computational power. To address this, we propose a cost-effective solution that filters conversational snippets of interest for LLM processing, tailored to the target downstream application, rather than processing every snippet. In this work, we introduce an innovative approach that leverages knowledge distillation from LLMs to develop an intent-based filter for multi-party conversations, optimized for compute power constrained environments. Our method combines different strategies to create a diverse multi-party conversational dataset, that is annotated with the target intents and is then used to fine-tune the MobileBERT model for multi-label intent classification. This model achieves a balance between efficiency and performance, effectively filtering conversation snippets based on their intents. By passing only the relevant snippets to the LLM for further processing, our approach significantly reduces overall operational costs depending on the intents and the data distribution as demonstrated in our experiments.

arxiv情報

著者 Reem Gody,Mohamed Abdelghaffar,Mohammed Jabreel,Ahmed Tawfik
発行日 2025-03-21 17:34:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Efficient Intent-Based Filtering for Multi-Party Conversations Using Knowledge Distillation from LLMs はコメントを受け付けていません

Capturing Individual Human Preferences with Reward Features

要約

人間のフィードバックからの強化学習は通常、人々を区別しない報酬モデルを使用して好みをモデル化します。
私たちは、大規模な言語モデルのトレーニングのように、意見の相違の可能性が高いコンテキストでは、これが良いデザインの選択である可能性は低いと主張します。
人またはグループに報酬モデルを専門とする方法を提案します。
私たちのアプローチは、個々の好みが一連の一般的な報酬機能の線形組み合わせとしてキャプチャできるという観察に基づいています。
そのような機能を学習する方法を示し、その後、それらの好みがトレーニングデータに反映されていなくても、それらを特定の個人に迅速に適応させるためにそれらを使用します。
提案されたアーキテクチャと非適応報酬モデルを比較した大規模な言語モデルでの実験と、コンテキスト内パーソナライズを行うモデルを含む適応性のあるカウンターパートも提示します。
トレーニングデータにどれだけの意見の相違があるかに応じて、モデルはベースラインを大幅に上回るか、パフォーマンスをよりシンプルなアーキテクチャとより安定したトレーニングと一致させます。

要約(オリジナル)

Reinforcement learning from human feedback usually models preferences using a reward model that does not distinguish between people. We argue that this is unlikely to be a good design choice in contexts with high potential for disagreement, like in the training of large language models. We propose a method to specialise a reward model to a person or group of people. Our approach builds on the observation that individual preferences can be captured as a linear combination of a set of general reward features. We show how to learn such features and subsequently use them to quickly adapt the reward model to a specific individual, even if their preferences are not reflected in the training data. We present experiments with large language models comparing the proposed architecture with a non-adaptive reward model and also adaptive counterparts, including models that do in-context personalisation. Depending on how much disagreement there is in the training data, our model either significantly outperforms the baselines or matches their performance with a simpler architecture and more stable training.

arxiv情報

著者 André Barreto,Vincent Dumoulin,Yiran Mao,Nicolas Perez-Nieves,Bobak Shahriari,Yann Dauphin,Doina Precup,Hugo Larochelle
発行日 2025-03-21 17:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Capturing Individual Human Preferences with Reward Features はコメントを受け付けていません

Can AI expose tax loopholes? Towards a new generation of legal policy assistants

要約

立法プロセスは、堅実な機関に建設された州のバックボーンです。
しかし、法律の複雑さ(特に税法)により、政策は不平等と社会的緊張につながる可能性があります。
この研究では、税の抜け穴と税の回避の問題に対処するために設計された新しいプロトタイプシステムを紹介します。
当社のハイブリッドソリューションは、自然言語インターフェイスを計画に合わせたドメイン固有の言語と統合します。
ケーススタディで、税の抜け穴と回避スキームがどのように暴露されるかを示します。
私たちのプロトタイプは、抜け穴に起因する税金のギャップを体系的に特定し、対処することにより、社会福祉の向上に役立つと結論付けています。

要約(オリジナル)

The legislative process is the backbone of a state built on solid institutions. Yet, due to the complexity of laws — particularly tax law — policies may lead to inequality and social tensions. In this study, we introduce a novel prototype system designed to address the issues of tax loopholes and tax avoidance. Our hybrid solution integrates a natural language interface with a domain-specific language tailored for planning. We demonstrate on a case study how tax loopholes and avoidance schemes can be exposed. We conclude that our prototype can help enhance social welfare by systematically identifying and addressing tax gaps stemming from loopholes.

arxiv情報

著者 Peter Fratrič,Nils Holzenberger,David Restrepo Amariles
発行日 2025-03-21 17:40:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Can AI expose tax loopholes? Towards a new generation of legal policy assistants はコメントを受け付けていません

Temporal-Spatial Attention Network (TSAN) for DoS Attack Detection in Network Traffic

要約

サービス拒否(DOS)攻撃は、ネットワークセキュリティ、サービスの混乱、重大な経済的損失を引き起こすための重大な脅威のままです。
統計的およびルールベースのモデルを含む従来の検出方法は、進化する攻撃パターンに適応するのに苦労しています。
この課題に対処するために、ネットワークトラフィックにおけるサービス拒否(DOS)攻撃を検出するための新しい時間空間注意ネットワーク(TSAN)アーキテクチャを提案します。
ネットワークトラフィックの時間的および空間的特徴の両方を活用することにより、私たちのアプローチは、従来の方法が見逃す可能性のある複雑なトラフィックパターンと異常をキャプチャします。
TSANモデルには、トランスベースの時間エンコーディング、畳み込み空間エンコーディング、およびこれらの補完的な特徴スペースを融合するための相互参加メカニズムが組み込まれています。
さらに、モデルの堅牢性を高めるために、補助タスクでマルチタスク学習を採用しています。
NSL-KDDデータセットの実験結果は、TSANが最先端のモデルを上回り、リアルタイムの展開のための計算効率を維持しながら、優れた精度、精度、リコール、およびF1スコアを達成することを示しています。
提案されたアーキテクチャは、検出精度と計算オーバーヘッドの間の最適なバランスを提供し、実際のネットワークセキュリティアプリケーションに非常に適しています。

要約(オリジナル)

Denial-of-Service (DoS) attacks remain a critical threat to network security, disrupting services and causing significant economic losses. Traditional detection methods, including statistical and rule-based models, struggle to adapt to evolving attack patterns. To address this challenge, we propose a novel Temporal-Spatial Attention Network (TSAN) architecture for detecting Denial of Service (DoS) attacks in network traffic. By leveraging both temporal and spatial features of network traffic, our approach captures complex traffic patterns and anomalies that traditional methods might miss. The TSAN model incorporates transformer-based temporal encoding, convolutional spatial encoding, and a cross-attention mechanism to fuse these complementary feature spaces. Additionally, we employ multi-task learning with auxiliary tasks to enhance the model’s robustness. Experimental results on the NSL-KDD dataset demonstrate that TSAN outperforms state-of-the-art models, achieving superior accuracy, precision, recall, and F1-score while maintaining computational efficiency for real-time deployment. The proposed architecture offers an optimal balance between detection accuracy and computational overhead, making it highly suitable for real-world network security applications.

arxiv情報

著者 Bisola Faith Kayode,Akinyemi Sadeeq Akintola,Oluwole Fagbohun,Egonna Anaesiuba-Bristol,Onyekachukwu Ojumah,Oluwagbade Odimayo,Toyese Oloyede,Aniema Inyang,Teslim Kazeem,Habeeb Alli,Udodirim Ibem Offia,Prisca Chinazor Amajuoyi
発行日 2025-03-21 17:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Temporal-Spatial Attention Network (TSAN) for DoS Attack Detection in Network Traffic はコメントを受け付けていません

RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving

要約

大規模な言語モデル(LLM)と外部知識データベースからの検索を組み合わせた検索総生成(RAG)は、信頼できるLLMサービングの一般的なアプローチとして浮上しています。
ただし、多くのRAGバリアントの急速な出現と、それらのワークロード特性の実質的な違いにより、効率的なRAGサービングは依然としてオープンな課題です。
この論文では、RAGサービングの進歩に3つの基本的な貢献をしています。
まず、Ragschemaを紹介します。Ragschemaは、幅広いRAGアルゴリズムをキャプチャする構造化された抽象化であり、パフォーマンスの最適化の基盤として機能します。
第二に、いくつかの代表的なRAGワークロードを明確なRagschemaで分析し、これらのワークロード全体で大きなパフォーマンスの変動性を明らかにします。
第三に、この変動性に対処し、多様なパフォーマンス要件を満たすために、Rago(検索された生成オプティマイザー)を提案します。これは、効率的なRAGサービングのシステム最適化フレームワークです。
私たちの評価は、RAGOがチップあたりのQPSが最大2倍の増加を達成し、LLMシステム拡張機能に基づいて構築されたRAGシステムと比較して、時間から2回目までのレイテンシの55%の減少を達成することを示しています。

要約(オリジナル)

Retrieval-augmented generation (RAG), which combines large language models (LLMs) with retrievals from external knowledge databases, is emerging as a popular approach for reliable LLM serving. However, efficient RAG serving remains an open challenge due to the rapid emergence of many RAG variants and the substantial differences in workload characteristics across them. In this paper, we make three fundamental contributions to advancing RAG serving. First, we introduce RAGSchema, a structured abstraction that captures the wide range of RAG algorithms, serving as a foundation for performance optimization. Second, we analyze several representative RAG workloads with distinct RAGSchema, revealing significant performance variability across these workloads. Third, to address this variability and meet diverse performance requirements, we propose RAGO (Retrieval-Augmented Generation Optimizer), a system optimization framework for efficient RAG serving. Our evaluation shows that RAGO achieves up to a 2x increase in QPS per chip and a 55% reduction in time-to-first-token latency compared to RAG systems built on LLM-system extensions.

arxiv情報

著者 Wenqi Jiang,Suvinay Subramanian,Cat Graves,Gustavo Alonso,Amir Yazdanbakhsh,Vidushi Dadu
発行日 2025-03-21 17:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.1, cs.AI, cs.CL, cs.DC, cs.IR | RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving はコメントを受け付けていません

NdLinear Is All You Need for Representation Learning

要約

多くのインパクトのある機械学習タスクには、多次元データ(例:画像、体積医療スキャン、多変量の時系列)が含まれます。
しかし、ほとんどのニューラルアーキテクチャは入力を平らにし、重要な相互次元情報を破棄します。
NdLinearを導入します。これは、これらの構造を余分なオーバーヘッドなしで保存する新しい線形変換です。
各次元に沿って個別に動作することにより、ndLinearは標準の完全に接続されたレイヤーが見落としている依存関係をキャプチャします。
畳み込み、再発性、変圧器ベースのネットワーク全体の広範な実験は、表現力とパラメーター効率の大幅な改善を示しています。
重要なことに、ndlinearは、ネイティブ形式の単峰性またはマルチモーダルデータを操作することにより、大規模な基礎モデルの基礎ビルディングブロックとして機能します。
これにより、平坦化またはモダリティ固有の前処理の必要性が削除されます。
ndlinearは、注意を払ってコアアーキテクチャの優先順位を再考し、より表現力豊かなコンテキスト対応モデルを大規模に可能にします。
標準の線形層のドロップイン置換としてndlinearを提案します。次世代の神経アーキテクチャに向けた重要なステップをマークします。

要約(オリジナル)

Many high-impact machine learning tasks involve multi-dimensional data (e.g., images, volumetric medical scans, multivariate time-series). Yet, most neural architectures flatten inputs, discarding critical cross-dimension information. We introduce NdLinear, a novel linear transformation that preserves these structures without extra overhead. By operating separately along each dimension, NdLinear captures dependencies that standard fully connected layers overlook. Extensive experiments across convolutional, recurrent, and transformer-based networks show significant improvements in representational power and parameter efficiency. Crucially, NdLinear serves as a foundational building block for large-scale foundation models by operating on any unimodal or multimodal data in its native form. This removes the need for flattening or modality-specific preprocessing. Ndlinear rethinks core architectural priorities beyond attention, enabling more expressive, context-aware models at scale. We propose NdLinear as a drop-in replacement for standard linear layers — marking an important step toward next-generation neural architectures.

arxiv情報

著者 Alex Reneau,Jerry Yao-Chieh Hu,Zhongfang Zhuang,Ting-Chun Liu
発行日 2025-03-21 17:52:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | NdLinear Is All You Need for Representation Learning はコメントを受け付けていません

HCAST: Human-Calibrated Autonomy Software Tasks

要約

非常に自律的なAIシステムの社会的影響を理解して予測するには、接地を備えたベンチマーク、つまりAIパフォーマンスを私たちが関心のある現実世界の効果に直接結び付けるメトリックが必要です。
189の機械学習エンジニアリング、サイバーセキュリティ、ソフトウェアエンジニアリング、および一般的な推論タスクのベンチマークであるHCAST(ヒューマンキャリブレーションソフトウェアタスク)を紹介します。
これらのドメインに熟練した人々から563のヒトベースライン(合計1500時間以上)を収集し、AIエージェントと同一の条件下で作業します。これにより、Hcastのタスクが1分から8時間以上の間に人間が服用すると推定できます。
人間にかかる時間タスクを測定すると、AI機能を評価するための直感的なメトリックが提供され、「エージェントが人間のX時間かかるタスクを完了することを信頼できますか?」
Frontier Foundationモデルに基づいて構築されたAIエージェントの成功率を評価します。現在のエージェントは、人間を1時間未満にするタスクで70〜80%の時間を成功させ、4時間以上かかるタスクでは20%未満であることがわかります。

要約(オリジナル)

To understand and predict the societal impacts of highly autonomous AI systems, we need benchmarks with grounding, i.e., metrics that directly connect AI performance to real-world effects we care about. We present HCAST (Human-Calibrated Autonomy Software Tasks), a benchmark of 189 machine learning engineering, cybersecurity, software engineering, and general reasoning tasks. We collect 563 human baselines (totaling over 1500 hours) from people skilled in these domains, working under identical conditions as AI agents, which lets us estimate that HCAST tasks take humans between one minute and 8+ hours. Measuring the time tasks take for humans provides an intuitive metric for evaluating AI capabilities, helping answer the question ‘can an agent be trusted to complete a task that would take a human X hours?’ We evaluate the success rates of AI agents built on frontier foundation models, and we find that current agents succeed 70-80% of the time on tasks that take humans less than one hour, and less than 20% of the time on tasks that take humans more than 4 hours.

arxiv情報

著者 David Rein,Joel Becker,Amy Deng,Seraphina Nix,Chris Canal,Daniel O’Connel,Pip Arnott,Ryan Bloom,Thomas Broadley,Katharyn Garcia,Brian Goodrich,Max Hasin,Sami Jawhar,Megan Kinniment,Thomas Kwa,Aron Lajko,Nate Rush,Lucas Jun Koba Sato,Sydney Von Arx,Ben West,Lawrence Chan,Elizabeth Barnes
発行日 2025-03-21 17:54:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, I.2.0 | HCAST: Human-Calibrated Autonomy Software Tasks はコメントを受け付けていません

FreeUV: Ground-Truth-Free Realistic Facial UV Texture Recovery via Cross-Assembly Inference Strategy

要約

シングルビュー2D画像から高品質の3Dフェイシャルテクスチャの回復は、特に限られたデータの制約とメイク、しわ、閉塞などの複雑なフェイシャルの詳細の下で、挑戦的なタスクです。
このホワイトペーパーでは、注釈付きまたは合成UVデータの必要性を排除する、新しいグラウンドフリーフリーUVテクスチャリカバリフレームワークであるFreeUVを紹介します。
Freeuvは、この目的を達成するために、相互補助推論戦略とともに、事前に訓練された安定した拡散モデルを活用します。
Freeuvでは、現実的な外観と構造的一貫性に焦点を当てるために、個別のネットワークが独立して訓練され、これらのネットワークは推論中に結合され、コヒーレントテクスチャを生成します。
私たちのアプローチは、複雑な顔の特徴を正確にキャプチャし、多様なポーズや閉塞にわたって堅牢なパフォーマンスを示しています。
広範な実験は、フリーフの有効性を検証し、結果は定量的および定性的指標の両方で最先端の方法を上回ります。
さらに、FreeUVは、ローカル編集、フェイシャル機能の補間、マルチビューテクスチャリカバリなどの新しいアプリケーションを有効にします。
データ要件を削減することにより、Freeuvは、実際のシナリオに適した高忠実度の3Dフェイシャルテクスチャを生成するためのスケーラブルなソリューションを提供します。

要約(オリジナル)

Recovering high-quality 3D facial textures from single-view 2D images is a challenging task, especially under constraints of limited data and complex facial details such as makeup, wrinkles, and occlusions. In this paper, we introduce FreeUV, a novel ground-truth-free UV texture recovery framework that eliminates the need for annotated or synthetic UV data. FreeUV leverages pre-trained stable diffusion model alongside a Cross-Assembly inference strategy to fulfill this objective. In FreeUV, separate networks are trained independently to focus on realistic appearance and structural consistency, and these networks are combined during inference to generate coherent textures. Our approach accurately captures intricate facial features and demonstrates robust performance across diverse poses and occlusions. Extensive experiments validate FreeUV’s effectiveness, with results surpassing state-of-the-art methods in both quantitative and qualitative metrics. Additionally, FreeUV enables new applications, including local editing, facial feature interpolation, and multi-view texture recovery. By reducing data requirements, FreeUV offers a scalable solution for generating high-fidelity 3D facial textures suitable for real-world scenarios.

arxiv情報

著者 Xingchao Yang,Takafumi Taketomi,Yuki Endo,Yoshihiro Kanamori
発行日 2025-03-21 14:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FreeUV: Ground-Truth-Free Realistic Facial UV Texture Recovery via Cross-Assembly Inference Strategy はコメントを受け付けていません

Jailbreaking the Non-Transferable Barrier via Test-Time Data Disguising

要約

一般化を許可されていないドメインに制限する「非譲渡不可能な障壁」を作成することにより、モデルの知的財産(IP)を保護するために、非譲渡不能学習(NTL)が提案されています。
最近、適切に設計された攻撃は、認定されたサンプルの少数でNTLモデルを微調整することにより、許可されていないドメインパフォーマンスを回復し、NTLベースのアプリケーションのセキュリティリスクを強調しています。
ただし、このような攻撃にはモデルの重みを変更する必要があるため、ブラックボックスシナリオでは無効です。
これは重要な疑問を提起します:ブラックボックスシステムとして展開されたNTLモデルのセキュリティを信頼できますか?
この作業では、テスト時間データを偽装して譲渡不可能な障壁を脱獄するための新しい攻撃方法(jailntlと呼ばれる)を提案することにより、ブラックボックスNTLモデルの最初の抜け穴を明らかにします。
jailntlの主な考え方は、不正なデータを偽装して、NTLモデルによって承認されていると特定できるため、NTLモデルの重みを変更せずに譲渡不可能な障壁をバイパスすることです。
具体的には、刑務所は、次の2つのレベルでの許可されていないドメインの偽装を奨励しています。
経験的に、ブラックボックスシナリオで最先端(SOTA)NTLモデルを攻撃する場合、jailntlは、既存のSOTAホワイトボックス攻撃を大きく超えて、許可されたサンプルのみを使用することにより、不正なドメインで最大55.7%の精度を達成します。

要約(オリジナル)

Non-transferable learning (NTL) has been proposed to protect model intellectual property (IP) by creating a ‘non-transferable barrier’ to restrict generalization from authorized to unauthorized domains. Recently, well-designed attack, which restores the unauthorized-domain performance by fine-tuning NTL models on few authorized samples, highlights the security risks of NTL-based applications. However, such attack requires modifying model weights, thus being invalid in the black-box scenario. This raises a critical question: can we trust the security of NTL models deployed as black-box systems? In this work, we reveal the first loophole of black-box NTL models by proposing a novel attack method (dubbed as JailNTL) to jailbreak the non-transferable barrier through test-time data disguising. The main idea of JailNTL is to disguise unauthorized data so it can be identified as authorized by the NTL model, thereby bypassing the non-transferable barrier without modifying the NTL model weights. Specifically, JailNTL encourages unauthorized-domain disguising in two levels, including: (i) data-intrinsic disguising (DID) for eliminating domain discrepancy and preserving class-related content at the input-level, and (ii) model-guided disguising (MGD) for mitigating output-level statistics difference of the NTL model. Empirically, when attacking state-of-the-art (SOTA) NTL models in the black-box scenario, JailNTL achieves an accuracy increase of up to 55.7% in the unauthorized domain by using only 1% authorized samples, largely exceeding existing SOTA white-box attacks.

arxiv情報

著者 Yongli Xiang,Ziming Hong,Lina Yao,Dadong Wang,Tongliang Liu
発行日 2025-03-21 14:47:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | Jailbreaking the Non-Transferable Barrier via Test-Time Data Disguising はコメントを受け付けていません

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

要約

閉ループロボットシステムでは、オープンセット障害の自動検出と防止が重要です。
最近の研究は、発生した後に予期しない障害を反応的に特定し、予測可能な障害を積極的に防ぐために同時に苦労していることがよくあります。
この目的のために、オープンセットの反応性およびプロアクティブな故障検出の両方について、ビジョン言語モデル(VLM)を活用する新しいパラダイムであるコードAs-Monitor(CAM)を提案します。
私たちの方法の中核は、両方のタスクを統一された空間的制約満足度の問題の統一セットとして策定し、VLMで生成されたコードを使用してリアルタイムの監視を評価することです。
監視の精度と効率を高めるために、抽象的な制約関連のエンティティまたはその部分をコンパクトな幾何学的要素に抽象化する制約要素をさらに導入します。
このアプローチは、一般性を高め、追跡を簡素化し、これらの要素を視覚プロンプトとして活用することにより、制約対応の視覚プログラミングを促進します。
実験では、CAMが28.7%の成功率を達成し、3つのシミュレータのベースラインと現実世界の設定に比べて、重度の妨害で実行時間を31.8%短縮することが示されています。
さらに、CAMをオープンループ制御ポリシーと統合して閉ループシステムを形成し、ダイナミック環境を備えた散らかったシーンで長距離タスクを可能にします。

要約(オリジナル)

Automatic detection and prevention of open-set failures are crucial in closed-loop robotic systems. Recent studies often struggle to simultaneously identify unexpected failures reactively after they occur and prevent foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a novel paradigm leveraging the vision-language model (VLM) for both open-set reactive and proactive failure detection. The core of our method is to formulate both tasks as a unified set of spatio-temporal constraint satisfaction problems and use VLM-generated code to evaluate them for real-time monitoring. To enhance the accuracy and efficiency of monitoring, we further introduce constraint elements that abstract constraint-related entities or their parts into compact geometric elements. This approach offers greater generality, simplifies tracking, and facilitates constraint-aware visual programming by leveraging these elements as visual prompts. Experiments show that CaM achieves a 28.7% higher success rate and reduces execution time by 31.8% under severe disturbances compared to baselines across three simulators and a real-world setting. Moreover, CaM can be integrated with open-loop control policies to form closed-loop systems, enabling long-horizon tasks in cluttered scenes with dynamic environments.

arxiv情報

著者 Enshen Zhou,Qi Su,Cheng Chi,Zhizheng Zhang,Zhongyuan Wang,Tiejun Huang,Lu Sheng,He Wang
発行日 2025-03-21 14:54:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection はコメントを受け付けていません