Adaptive Resampling with Bootstrap for Noisy Multi-Objective Optimization Problems

要約

ノイズの多い多目的最適化の課題は、新しい決定ポイントを探索し、再サンプリングを通じて既知のポイントの精度を改善することとの間の絶え間ないトレードオフにあります。
この決定は、目的関数の変動性と、パレート戦線に関連するポイントの現在の推定の両方を考慮する必要があります。
ノイズの量と分布は一般に不明であるため、決定関数が最適化問題の特性に高度に適応することが望ましいです。
このホワイトペーパーでは、ブートストラップと優位性の確率を使用して、最適化問題の確率的性質を組み込んだ再サンプリング決定機能を紹介します。
支配の確率の分布のない推定は、平均のブートストラップ推定値を使用して達成されます。
観測が非常に少ない場合でも、手順を適用できるようにするために、他の決定点で観察された分布を転送します。
この再サンプリングアプローチの効率は、複数のノイズ変動の下で連続的な再サンプリング手順を使用してNSGA-IIアルゴリズムに適用することにより実証されています。

要約(オリジナル)

The challenge of noisy multi-objective optimization lies in the constant trade-off between exploring new decision points and improving the precision of known points through resampling. This decision should take into account both the variability of the objective functions and the current estimate of a point in relation to the Pareto front. Since the amount and distribution of noise are generally unknown, it is desirable for a decision function to be highly adaptive to the properties of the optimization problem. This paper presents a resampling decision function that incorporates the stochastic nature of the optimization problem by using bootstrapping and the probability of dominance. The distribution-free estimation of the probability of dominance is achieved using bootstrap estimates of the means. To make the procedure applicable even with very few observations, we transfer the distribution observed at other decision points. The efficiency of this resampling approach is demonstrated by applying it in the NSGA-II algorithm with a sequential resampling procedure under multiple noise variations.

arxiv情報

著者 Timo Budszuhn,Mark Joachim Krallmann,Daniel Horn
発行日 2025-04-24 14:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 90C29, cs.AI, cs.LG, G.1.6, stat.ML | Adaptive Resampling with Bootstrap for Noisy Multi-Objective Optimization Problems はコメントを受け付けていません

Learning Type-Generalized Actions for Symbolic Planning

要約

シンボリック計画は、長いシーケンスのアクションを必要とし、インテリジェントエージェントに複雑な動作を装備できる複雑なタスクを解決するための強力な手法です。
このアプローチの欠点は、環境の状態とそれを変えることができるアクションを説明する適切な象徴的な表現の必要性です。
伝統的に、このような表現は、異なる問題ドメインの専門家によって慎重に設計されており、さまざまな問題や環境の複雑さへの移転性を制限しています。
この論文では、特定のエンティティ階層を使用して象徴的なアクションを一般化し、同様の動作を観察するための新しい概念を提案します。
シミュレートされたグリッドベースのキッチン環境では、タイプジェネラル化されたアクションが少数の観察から学習し、新しい状況に一般化できることを示します。
計画中に追加のオンザフライ一般化メカニズムを組み込む、目に見えないタスクの組み合わせ、より長いシーケンス、新しいエンティティ、予期しない環境行動を含むことを解決できます。

要約(オリジナル)

Symbolic planning is a powerful technique to solve complex tasks that require long sequences of actions and can equip an intelligent agent with complex behavior. The downside of this approach is the necessity for suitable symbolic representations describing the state of the environment as well as the actions that can change it. Traditionally such representations are carefully hand-designed by experts for distinct problem domains, which limits their transferability to different problems and environment complexities. In this paper, we propose a novel concept to generalize symbolic actions using a given entity hierarchy and observed similar behavior. In a simulated grid-based kitchen environment, we show that type-generalized actions can be learned from few observations and generalize to novel situations. Incorporating an additional on-the-fly generalization mechanism during planning, unseen task combinations, involving longer sequences, novel entities and unexpected environment behavior, can be solved.

arxiv情報

著者 Daniel Tanneberg,Michael Gienger
発行日 2025-04-24 14:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Type-Generalized Actions for Symbolic Planning はコメントを受け付けていません

Decentralized Time Series Classification with ROCKET Features

要約

時系列分類(TSC)は、ヘルスケア、財務、産業監視など、さまざまなドメインのアプリケーションを使用する重要なタスクです。
プライバシーの懸念とデータ規制により、連邦学習は、生の情報を集中せずに分散時系列データから学習するための有望なアプローチとして浮上しています。
ただし、ほとんどのFLソリューションは、クライアントサーバーアーキテクチャに依存しており、サーバーの著名な役割に関連する堅牢性と機密性のリスクを導入します。これは、単一の障害のポイントであり、クライアントから抽出された知識を観察できます。
これらの課題に対処するために、ロケット(ランダム畳み込みカーネル変換)機能を活用するTSCの完全に分散したFLフレームワークであるDrocksを提案します。
Drocksでは、グローバルモデルは、連邦ノードを横切って構造化されたパスを連続的に横断することによってトレーニングされます。そこでは、各ノードがモデルを改良し、後継者に渡す前に最も効果的なローカルカーネルを選択します。
UCRアーカイブでの広範な実験は、ドロックが最先端のクライアントサーバーFLが近づいている一方で、ノードの障害や悪意のある攻撃により回復力があることを示しています。
私たちのコードは、https://anonymous.4open.science/r/drocks-7ff3/readme.mdで入手できます。

要約(オリジナル)

Time series classification (TSC) is a critical task with applications in various domains, including healthcare, finance, and industrial monitoring. Due to privacy concerns and data regulations, Federated Learning has emerged as a promising approach for learning from distributed time series data without centralizing raw information. However, most FL solutions rely on a client-server architecture, which introduces robustness and confidentiality risks related to the distinguished role of the server, which is a single point of failure and can observe knowledge extracted from clients. To address these challenges, we propose DROCKS, a fully decentralized FL framework for TSC that leverages ROCKET (RandOm Convolutional KErnel Transform) features. In DROCKS, the global model is trained by sequentially traversing a structured path across federation nodes, where each node refines the model and selects the most effective local kernels before passing them to the successor. Extensive experiments on the UCR archive demonstrate that DROCKS outperforms state-of-the-art client-server FL approaches while being more resilient to node failures and malicious attacks. Our code is available at https://anonymous.4open.science/r/DROCKS-7FF3/README.md.

arxiv情報

著者 Bruno Casella,Matthias Jakobs,Marco Aldinucci,Sebastian Buschjäger
発行日 2025-04-24 14:41:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.LG, I.2.11 | Decentralized Time Series Classification with ROCKET Features はコメントを受け付けていません

Deciphering the unique dynamic activation pathway in a G protein-coupled receptor enables unveiling biased signaling and identifying cryptic allosteric sites in conformational intermediates

要約

クラスA Gタンパク質共役受容体スーパーファミリーのメンバーであるニューロテンシン受容体1(NTSR1)は、ドーパミン作動性ニューロン活性の調節とオピオイド非依存性鎮痛の誘発に重要な役割を果たします。
最近の研究では、NTSR1でのアレスチンバイアスシグナル伝達を促進することで、精神刺激剤などの乱用の薬物が減少する可能性があり、それにより、人間の依存症関連障害を治療するための潜在的な手段を提供する可能性があることが示唆されています。
この研究では、弾力性のあるバンドベースの分子動力学シミュレーション、マルコフ状態モデル、時間的通信ネットワーク分析、サイト指向変異誘発、および適合バイオセンサーを組み合わせた新しい計算および実験的アプローチを利用して、NTSR1活性化とバイアスシグナル伝達の根底にある複雑なメカニズムを探求しました。
私たちの研究は、NTSR1活性化に関連する動的な段階的遷移メカニズムと活性化される伝送ネットワークを明らかにしています。
また、NTSR1シグナル伝達における一意の極性ネットワーク、非保存イオンロック、および芳香族クラスター間の複雑な相互作用に対する貴重な洞察をもたらします。
さらに、活性化経路内の中間状態に存在する受容体の細胞内領域に位置する不可解なアロステリック部位を特定しました。
集合的に、これらの発見は、NTSR1活性化のより深い理解と原子レベルでの偏ったシグナル伝達に貢献し、それによってGタンパク質結合受容体生物学、生物物理学、および医学の領域におけるNTSR1アロステリックモジュレーターの開発のための潜在的な戦略を提供します。

要約(オリジナル)

Neurotensin receptor 1 (NTSR1), a member of the Class A G protein-coupled receptor superfamily, plays an important role in modulating dopaminergic neuronal activity and eliciting opioid-independent analgesia. Recent studies suggest that promoting \{beta}-arrestin-biased signaling in NTSR1 may diminish drugs of abuse, such as psychostimulants, thereby offering a potential avenue for treating human addiction-related disorders. In this study, we utilized a novel computational and experimental approach that combined nudged elastic band-based molecular dynamics simulations, Markov state models, temporal communication network analysis, site-directed mutagenesis, and conformational biosensors, to explore the intricate mechanisms underlying NTSR1 activation and biased signaling. Our study reveals a dynamic stepwise transition mechanism and activated transmission network associated with NTSR1 activation. It also yields valuable insights into the complex interplay between the unique polar network, non-conserved ion locks, and aromatic clusters in NTSR1 signaling. Moreover, we identified a cryptic allosteric site located in the intracellular region of the receptor that exists in an intermediate state within the activation pathway. Collectively, these findings contribute to a more profound understanding of NTSR1 activation and biased signaling at the atomic level, thereby providing a potential strategy for the development of NTSR1 allosteric modulators in the realm of G protein-coupled receptor biology, biophysics, and medicine.

arxiv情報

著者 Jigang Fan,Chunhao Zhu,Xiaobing Lan,Haiming Zhuang,Mingyu Li,Jian Zhang,Shaoyong Lu
発行日 2025-04-24 14:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.BM | Deciphering the unique dynamic activation pathway in a G protein-coupled receptor enables unveiling biased signaling and identifying cryptic allosteric sites in conformational intermediates はコメントを受け付けていません

PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph

要約

動的ノード分類は、金融取引や学術的コラボレーションなどの進化するシステムをモデリングするために重要です。
このようなシステムでは、動的なノード情報の変更を動的にキャプチャすることは、通常、すべてのタイムスタンプですべてのラベルを必要とする動的ノード分類にとって重要です。
ただし、注釈コストが高く、ラベルの不確実性(詐欺検出の曖昧または遅延ラベル)のために、実際のシナリオですべての動的ラベルを収集することは困難です。
対照的に、最終的なタイムスタンプラベルは、完全な時間パターンに依存しているため、取得が簡単で、通常、履歴データを追跡せずに、多くのオープンプラットフォームで各ユーザーのユニークなラベルとして維持されます。
このギャップを埋めるために、最終ラベルのみが利用可能なラベル制限動的ノード分類に対処する先駆的な方法であるPTCL(擬似ラベル時間カリキュラム学習)を提案します。
PTCLは、次のように導入します。(1)バックボーン(時間を取得した表現の学習)とデコーダー(最終ラベルと厳密に整合した)を分離する時間的分離アーキテクチャ、擬似ラベルを生成します。
新しいアカデミックデータセット(COOAG)を提供し、動的グラフで長距離の研究関心をキャプチャします。
実際のシナリオ全体の実験は、このタスクに適応した他の方法に対するPTCLの一貫した優位性を示しています。
方法論を超えて、完全な準備ワークフロー、トレーニングパイプライン、評価基準で構成される統一フレームワークFLID(ラベル制限された動的ノード分類のフレームワーク)を提案し、さまざまなモデルとデータセットをサポートします。
コードはhttps://github.com/3205914485/flidにあります。

要約(オリジナル)

Dynamic node classification is critical for modeling evolving systems like financial transactions and academic collaborations. In such systems, dynamically capturing node information changes is critical for dynamic node classification, which usually requires all labels at every timestamp. However, it is difficult to collect all dynamic labels in real-world scenarios due to high annotation costs and label uncertainty (e.g., ambiguous or delayed labels in fraud detection). In contrast, final timestamp labels are easier to obtain as they rely on complete temporal patterns and are usually maintained as a unique label for each user in many open platforms, without tracking the history data. To bridge this gap, we propose PTCL(Pseudo-label Temporal Curriculum Learning), a pioneering method addressing label-limited dynamic node classification where only final labels are available. PTCL introduces: (1) a temporal decoupling architecture separating the backbone (learning time-aware representations) and decoder (strictly aligned with final labels), which generate pseudo-labels, and (2) a Temporal Curriculum Learning strategy that prioritizes pseudo-labels closer to the final timestamp by assigning them higher weights using an exponentially decaying function. We contribute a new academic dataset (CoOAG), capturing long-range research interest in dynamic graph. Experiments across real-world scenarios demonstrate PTCL’s consistent superiority over other methods adapted to this task. Beyond methodology, we propose a unified framework FLiD (Framework for Label-Limited Dynamic Node Classification), consisting of a complete preparation workflow, training pipeline, and evaluation standards, and supporting various models and datasets. The code can be found at https://github.com/3205914485/FLiD.

arxiv情報

著者 Shengtao Zhang,Haokai Zhang,Shiqi Lou,Zicheng Wang,Zinan Zeng,Yilin Wang,Minnan Luo
発行日 2025-04-24 15:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph はコメントを受け付けていません

Unlocking Large Language Model’s Planning Capabilities with Maximum Diversity Fine-tuning

要約

大規模な言語モデル(LLMS)は、十分なデータがオンラインで利用可能であり、トレーニング前に使用されている場合、計画タスク(数学の証明、基本旅行計画など)の解決など、プロンプトのテクニックとシステム設計を通じて印象的なタスク解決機能を実証しています。
ただし、以前のデータが限られている(世界、高度な旅行計画などをブロックする)タ​​スクを計画するには、GPTやGeminiなどの独自モデルを含むLLMのパフォーマンスが貧弱です。
このペーパーでは、LLMSの計画能力に対する微調整の影響を調査し、LLMがかなりの(数万の特定の例)微調整を通じて計画において強力なパフォーマンスを達成できることを明らかにしました。
しかし、このプロセスには、計画の問題の変動ごとに高い経済、時間、および計算コストが発生します。
これに対処するために、クラスタリングベースの最大ダイバーシティサンプリング(CMDS)を提案します。これは、サンプル効率とモデルの一般化機能を高めるために、多様で代表的なデータを選択します。
広範な評価は、CMDと言語埋め込みを組み合わせたベースライン法であるCMDS-Lがランダムサンプリングを上回ることを示しています。
さらに、新しいアルゴリズムであるCMDS-Gを導入します。これは、グラフ表現を埋め込みスペースに計画するタスクインスタンスをコードします。
経験的結果は、CMDS-Gが、さまざまなスケールと複数のベンチマークドメインにわたってベースラインメソッドを常に上回ることを示しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated impressive task-solving capabilities through prompting techniques and system designs, including solving planning tasks (e.g., math proofs, basic travel planning) when sufficient data is available online and used during pre-training. However, for planning tasks with limited prior data (e.g., blocks world, advanced travel planning), the performance of LLMs, including proprietary models like GPT and Gemini, is poor. This paper investigates the impact of fine-tuning on the planning capabilities of LLMs, revealing that LLMs can achieve strong performance in planning through substantial (tens of thousands of specific examples) fine-tuning. Yet, this process incurs high economic, time, and computational costs for each planning problem variation. To address this, we propose Clustering-Based Maximum Diversity Sampling (CMDS), which selects diverse and representative data to enhance sample efficiency and the model’s generalization capability. Extensive evaluations demonstrate that CMDS-l, a baseline method combining CMDS with language embeddings, outperforms random sampling. Furthermore, we introduce a novel algorithm, CMDS-g, which encodes planning task instances with their graph representations into the embedding space. Empirical results show that CMDS-g consistently outperforms baseline methods across various scales and multiple benchmark domains.

arxiv情報

著者 Wenjun Li,Changyu Chen,Pradeep Varakantham
発行日 2025-04-24 15:15:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Unlocking Large Language Model’s Planning Capabilities with Maximum Diversity Fine-tuning はコメントを受け付けていません

On the Benefits of Memory for Modeling Time-Dependent PDEs

要約

データ駆動型の手法は、PDEを解くための従来の数値方法の有望な代替手段として浮上しています。
時間依存のPDEの場合、多くのアプローチはマルコフ語です。訓練されたシステムの進化は、現在の状態にのみ依存し、過去の状態ではありません。
この作業では、時間依存のPDEをモデル化するためにメモリを使用することの利点を調査します。つまり、過去の状態が将来を予測するために明示的に使用される場合です。
モデル削減のモリズワンツィヒ理論に動機付けられて、私たちは理論的には、メモリを使用するソリューションがマルコフのソリューションよりも任意に優れている単純な(線形)PDEの例を示します。
さらに、最近の状態空間モデル(具体的にはS4)とフーリエ神経演算子(FNO)を組み合わせてメモリを効果的にモデル化する神経演算子アーキテクチャであるメモリニューラル演算子(MEMNO)を紹介します。
PDEが低解像度で供給されるか、列車とテスト時間で観測ノイズを含んでいる場合、MEMNOはメモリなしでベースラインを大幅に上回ることを実証します。
さらに、この利点は、PDEソリューションに有意な高周波フーリエモード(たとえば、低粘度流体のダイナミクス)がある場合に特に顕著であることを示し、そのようなPDEで構成される挑戦的なベンチマークデータセットを構築します。

要約(オリジナル)

Data-driven techniques have emerged as a promising alternative to traditional numerical methods for solving PDEs. For time-dependent PDEs, many approaches are Markovian — the evolution of the trained system only depends on the current state, and not the past states. In this work, we investigate the benefits of using memory for modeling time-dependent PDEs: that is, when past states are explicitly used to predict the future. Motivated by the Mori-Zwanzig theory of model reduction, we theoretically exhibit examples of simple (even linear) PDEs, in which a solution that uses memory is arbitrarily better than a Markovian solution. Additionally, we introduce Memory Neural Operator (MemNO), a neural operator architecture that combines recent state space models (specifically, S4) and Fourier Neural Operators (FNOs) to effectively model memory. We empirically demonstrate that when the PDEs are supplied in low resolution or contain observation noise at train and test time, MemNO significantly outperforms the baselines without memory — with up to 6x reduction in test error. Furthermore, we show that this benefit is particularly pronounced when the PDE solutions have significant high-frequency Fourier modes (e.g., low-viscosity fluid dynamics) and we construct a challenging benchmark dataset consisting of such PDEs.

arxiv情報

著者 Ricardo Buitrago Ruiz,Tanya Marwah,Albert Gu,Andrej Risteski
発行日 2025-04-24 15:16:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | On the Benefits of Memory for Modeling Time-Dependent PDEs はコメントを受け付けていません

The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

要約

この論文では、生存者中心のアプローチを採用して、「深い偽のポルノ」として知られている大人のAIに生成された非合意の親密な画像(AIG-NCII)を防ぐための社会技術的なAIガバナンスの役割を見つけて分析します。
オープンソースのフェイススワッピングモデルと、非技術的なユーザーが数分以内にAIG-NCIIを作成できる200個近くの「ヌーディング」ソフトウェアプログラムで構成される「悪意のある技術エコシステム」または「MTE」を特定します。
次に、現在の合成コンテンツガバナンス方法を反映して、国立標準技術研究所(NIST)AI 100-4レポートを使用して、現在の実践景観が成人AIG-NCIIのMTEを効果的に規制し、これらのギャップを説明する欠陥のある仮定をどのように制御できないかを示します。

要約(オリジナル)

In this paper, we adopt a survivor-centered approach to locate and dissect the role of sociotechnical AI governance in preventing AI-Generated Non-Consensual Intimate Images (AIG-NCII) of adults, colloquially known as ‘deep fake pornography.’ We identify a ‘malicious technical ecosystem’ or ‘MTE,’ comprising of open-source face-swapping models and nearly 200 ‘nudifying’ software programs that allow non-technical users to create AIG-NCII within minutes. Then, using the National Institute of Standards and Technology (NIST) AI 100-4 report as a reflection of current synthetic content governance methods, we show how the current landscape of practices fails to effectively regulate the MTE for adult AIG-NCII, as well as flawed assumptions explaining these gaps.

arxiv情報

著者 Michelle L. Ding,Harini Suresh
発行日 2025-04-24 15:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, cs.LG | The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults はコメントを受け付けていません

Towards a HIPAA Compliant Agentic AI System in Healthcare

要約

基本的な推論エンジンとして大規模な言語モデル(LLMS)を搭載したエージェントAIシステムは、機密性の高い医療データを自律的に分析し、最小限の人間の監視で意思決定を実行することにより、医療レポートの生成や臨床要約などの臨床ワークフローを変革しています。
ただし、特に保護された健康情報(PHI)を処理する場合、彼らの採用には、健康保険の携帯性や説明責任法(HIPAA)などの規制枠組みへの厳密な順守が要求されます。
この進行中の論文では、動的でコンテキスト認識した政策執行を通じて規制のコンプライアンスを実施するHIPAA準拠のエージェントAIフレームワークを紹介します。
当社のフレームワークには、3つのコアメカニズムが統合されています。(1)粒状PHIガバナンスの属性ベースのアクセス制御(ABAC)、(2)漏れを最小限に抑えるための再遺伝子パターンとBERTベースのモデルを組み合わせたハイブリッドPHIサニタイゼーションパイプライン、および(3)コンプライアンスの確認のための不動の監査トレイル。

要約(オリジナル)

Agentic AI systems powered by Large Language Models (LLMs) as their foundational reasoning engine, are transforming clinical workflows such as medical report generation and clinical summarization by autonomously analyzing sensitive healthcare data and executing decisions with minimal human oversight. However, their adoption demands strict compliance with regulatory frameworks such as Health Insurance Portability and Accountability Act (HIPAA), particularly when handling Protected Health Information (PHI). This work-in-progress paper introduces a HIPAA-compliant Agentic AI framework that enforces regulatory compliance through dynamic, context-aware policy enforcement. Our framework integrates three core mechanisms: (1) Attribute-Based Access Control (ABAC) for granular PHI governance, (2) a hybrid PHI sanitization pipeline combining regex patterns and BERT-based model to minimize leakage, and (3) immutable audit trails for compliance verification.

arxiv情報

著者 Subash Neupane,Shaswata Mitra,Sudip Mittal,Shahram Rahimi
発行日 2025-04-24 15:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.MA | Towards a HIPAA Compliant Agentic AI System in Healthcare はコメントを受け付けていません

Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction

要約

この研究では、スプリットコンフォーマル予測(SCP)フレームワークを介した視覚的質問(VQA)タスクのための大規模な視覚言語モデル(LVLMS)における幻覚緩和の重要な課題に対処します。
LVLMSはマルチモーダルの推論に優れていますが、その出力はしばしば自信を持って幻覚コンテンツを示し、安全性の高いアプリケーションにリスクをもたらします。
動的なしきい値のキャリブレーションとクロスモーダルの一貫性の検証を統合するモデルに依存しない不確実性定量化方法を提案します。
データをキャリブレーションとテストセットに分割することにより、フレームワークは非変性スコアを計算して、ユーザー定義のリスクレベル($ \ alpha $)の下で統計的保証で予測セットを構築します。
主要なイノベーションには次のものが含まれます。(1)経験的エラー率を厳密に$ \ alpha $を下回ることを保証するための\ textBf {限界カバレッジ}の厳密な制御。
(2)$ \ alpha $を使用して、予測セットサイズの動的調整を逆に調整し、低信頼性出力をフィルタリングします。
(3)事前の配布の仮定と再訓練要件の排除。
8つのLVLMSを使用したベンチマーク(ScienceQA、MMMU)の評価は、SCPがすべての$ \ alpha $値にわたって理論的保証を強制することを示しています。
このフレームワークは、さまざまなキャリブレーション間分割比にわたって安定したパフォーマンスを実現し、ヘルスケア、自律システム、およびその他の安全性に敏感なドメインでの実際の展開に対する堅牢性を強調しています。
この作業は、マルチモーダルAIシステムにおける理論的信頼性と実用的な適用性のギャップを埋め、幻覚検出と不確実性を認識する意思決定のためのスケーラブルなソリューションを提供します。

要約(オリジナル)

This study addresses the critical challenge of hallucination mitigation in Large Vision-Language Models (LVLMs) for Visual Question Answering (VQA) tasks through a Split Conformal Prediction (SCP) framework. While LVLMs excel in multi-modal reasoning, their outputs often exhibit hallucinated content with high confidence, posing risks in safety-critical applications. We propose a model-agnostic uncertainty quantification method that integrates dynamic threshold calibration and cross-modal consistency verification. By partitioning data into calibration and test sets, the framework computes nonconformity scores to construct prediction sets with statistical guarantees under user-defined risk levels ($\alpha$). Key innovations include: (1) rigorous control of \textbf{marginal coverage} to ensure empirical error rates remain strictly below $\alpha$; (2) dynamic adjustment of prediction set sizes inversely with $\alpha$, filtering low-confidence outputs; (3) elimination of prior distribution assumptions and retraining requirements. Evaluations on benchmarks (ScienceQA, MMMU) with eight LVLMs demonstrate that SCP enforces theoretical guarantees across all $\alpha$ values. The framework achieves stable performance across varying calibration-to-test split ratios, underscoring its robustness for real-world deployment in healthcare, autonomous systems, and other safety-sensitive domains. This work bridges the gap between theoretical reliability and practical applicability in multi-modal AI systems, offering a scalable solution for hallucination detection and uncertainty-aware decision-making.

arxiv情報

著者 Yuanchang Ye,Weiyan Wen
発行日 2025-04-24 15:39:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction はコメントを受け付けていません