IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain

要約

最近、クリップなどのビジョン言語モデルの急速な進歩は、ゼロ/少ないショットの異常検出(ZFSAD)タスクの大きな進歩につながります。
ただし、ほとんどの既存のクリップベースのZFSADメソッドは、一般にカテゴリの事前知識を想定しており、特定のシナリオに合わせた慎重に作成されたプロンプトに依存しています。
このような細心の注意を払って設計されたテキストプロンプトは、テキスト空間でセマンティック情報を効果的にキャプチャしますが、ジョイント埋め込みスペース内の通常と異常なインスタンスを区別していません。
さらに、これらのZFSADメソッドは、主に産業シナリオで調査されており、医療タスクにはほとんど努力されていません。
この目的のために、IQE-Clipとして示される医療ドメインのZFSADタスクの革新的なフレームワークを提案します。
テキストとインスタンスの両方の視覚情報の両方を組み込んだクエリの埋め込みが、異常のより良い指標であることを明らかにします。
具体的には、最初にクラスベースのプロンプトトークンと、医療ドメインへのクリップのより良い適応のためにトークンのプロンプトのトークンを導入できるようにします。
次に、インスタンスアウェアクエリモジュール(IQM)を設計して、テキストプロンプトと視覚的特徴の両方から領域レベルのコンテキスト情報を抽出し、異常に敏感なクエリ埋め込みの生成を可能にします。
6つの医療データセットで実施された広範な実験は、IQE-Clipがゼロショットと少数のショットタスクの両方で最先端のパフォーマンスを達成することを示しています。
https://github.com/hongh0/iqe-clip/でコードとデータをリリースします。

要約(オリジナル)

Recently, the rapid advancements of vision-language models, such as CLIP, leads to significant progress in zero-/few-shot anomaly detection (ZFSAD) tasks. However, most existing CLIP-based ZFSAD methods commonly assume prior knowledge of categories and rely on carefully crafted prompts tailored to specific scenarios. While such meticulously designed text prompts effectively capture semantic information in the textual space, they fall short of distinguishing normal and anomalous instances within the joint embedding space. Moreover, these ZFSAD methods are predominantly explored in industrial scenarios, with few efforts conducted to medical tasks. To this end, we propose an innovative framework for ZFSAD tasks in medical domain, denoted as IQE-CLIP. We reveal that query embeddings, which incorporate both textual and instance-aware visual information, are better indicators for abnormalities. Specifically, we first introduce class-based prompting tokens and learnable prompting tokens for better adaptation of CLIP to the medical domain. Then, we design an instance-aware query module (IQM) to extract region-level contextual information from both text prompts and visual features, enabling the generation of query embeddings that are more sensitive to anomalies. Extensive experiments conducted on six medical datasets demonstrate that IQE-CLIP achieves state-of-the-art performance on both zero-shot and few-shot tasks. We release our code and data at https://github.com/hongh0/IQE-CLIP/.

arxiv情報

著者 Hong Huang,Weixiang Sun,Zhijian Wu,Jingwen Niu,Donghuan Lu,Xian Wu,Yefeng Zheng
発行日 2025-06-13 03:32:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain はコメントを受け付けていません

MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning

要約

このホワイトペーパーでは、画像生成モデルの推論能力を調査するために、大規模なマルチディシップラインマルチディスマルチイメージ生成ベンチマーク(MMMG)に加えて、新しいタスクとして知識画像生成を新しいタスクとして紹介します。
知識のイメージは、人間の文明と人間の学習のメカニズムの中心であり、二重コーディング理論と絵の監視効果によって強調されている事実です。
そのような画像を生成することは、世界の知識をピクセルレベルの接地と明確な説明ビジュアルに融合させる、挑戦的で要求の厳しいマルチモーダル推論です。
包括的な評価を可能にするために、MMMGは、10の分野、6つの教育レベル、チャート、図、マインドマップなどの多様な知識形式にまたがる4,456の専門家対象(知識)画像プロムプトペアを提供します。
評価中に交絡の複雑さを排除するために、統一された知識グラフ(kg)表現を採用します。
各kgは、ターゲット画像のコアエンティティとその依存関係を明示的に描写します。
さらに、MMMGスコアを紹介して、生成された知識画像を評価します。
このメトリックは、KG間のグラフ編集距離で測定された事実上の忠実度と、視覚的な明瞭さの評価を組み合わせています。
16の最先端のテキストからイメージへの生成モデルの包括的な評価は、GPT-4oがわずか50.20のMMMGスコアを達成し、ベンチマークの難しさを強調して、深刻な推論の忠実さ、弱い関係、乱雑さを明らかにします。
さらなる進行のために、推論LLMと拡散モデルを組み合わせ、16,000のキュレーションナレッジイメージプロムプトペアでトレーニングされる効果的でオープンなベースラインであるFlux-Reason(MMMG-Score 34.45)をリリースします。

要約(オリジナル)

In this paper, we introduce knowledge image generation as a new task, alongside the Massive Multi-Discipline Multi-Tier Knowledge-Image Generation Benchmark (MMMG) to probe the reasoning capability of image generation models. Knowledge images have been central to human civilization and to the mechanisms of human learning — a fact underscored by dual-coding theory and the picture-superiority effect. Generating such images is challenging, demanding multimodal reasoning that fuses world knowledge with pixel-level grounding into clear explanatory visuals. To enable comprehensive evaluation, MMMG offers 4,456 expert-validated (knowledge) image-prompt pairs spanning 10 disciplines, 6 educational levels, and diverse knowledge formats such as charts, diagrams, and mind maps. To eliminate confounding complexity during evaluation, we adopt a unified Knowledge Graph (KG) representation. Each KG explicitly delineates a target image’s core entities and their dependencies. We further introduce MMMG-Score to evaluate generated knowledge images. This metric combines factual fidelity, measured by graph-edit distance between KGs, with visual clarity assessment. Comprehensive evaluations of 16 state-of-the-art text-to-image generation models expose serious reasoning deficits — low entity fidelity, weak relations, and clutter — with GPT-4o achieving an MMMG-Score of only 50.20, underscoring the benchmark’s difficulty. To spur further progress, we release FLUX-Reason (MMMG-Score of 34.45), an effective and open baseline that combines a reasoning LLM with diffusion models and is trained on 16,000 curated knowledge image-prompt pairs.

arxiv情報

著者 Yuxuan Luo,Yuhui Yuan,Junwen Chen,Haonan Cai,Ziyi Yue,Yuwei Yang,Fatima Zohra Daha,Ji Li,Zhouhui Lian
発行日 2025-06-13 04:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning はコメントを受け付けていません

Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning

要約

Lipschitz Banditsは、$ [0,1] $間隔などの大きく構造化されたアクション空間を研​​究するマルチアームの盗賊の顕著なバージョンであり、同様のアクションが同様の報酬を持つことが保証されています。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、そのより有望な領域で徐々に「ズームイン」します。
目標は、「より良い」問題のインスタンスを利用しながら、最適に近い最悪のパフォーマンスを保持することです。
問題の確率的バージョンはよく理解されていますが、敵対的な報酬を持つ一般的なバージョンはそうではありません。
敵対的なバージョンで適応的な離散化のために、最初のアルゴリズム(\ emponsial Zooming})を提供し、インスタンス依存の後悔の境界を導き出します。
特に、敵対バージョンに縛られた最悪の最適な後悔と、確率的バージョンに拘束されたインスタンス依存の後悔を回復します。
アルゴリズムを、動的価格設定やオークションリザーブチューニングなど、すべて敵対的な報酬モデルの下にあるいくつかの基本的なアプリケーションに適用します。
これらのドメインはしばしばLipschitznessに違反しますが、分析にはその弱いバージョンのみが必要であり、追加の滑らかさの仮定なしで意味のある後悔の境界を可能にします。
特に、結果は、片側のリプシッツネスを満たさない設定である非滑らかな報酬構造を使用して、マルチプロダクトの動的価格設定に拡張します。

要約(オリジナル)

Lipschitz bandits is a prominent version of multi-armed bandits that studies large, structured action spaces such as the $[0,1]$ interval, where similar actions are guaranteed to have similar rewards. A central theme here is the adaptive discretization of the action space, which gradually “zooms in” on the more promising regions thereof. The goal is to take advantage of “nicer” problem instances, while retaining near-optimal worst-case performance. While the stochastic version of the problem is well-understood, the general version with adversarial rewards is not. We provide the first algorithm (\emph{Adversarial Zooming}) for adaptive discretization in the adversarial version, and derive instance-dependent regret bounds. In particular, we recover the worst-case optimal regret bound for the adversarial version, and the instance-dependent regret bound for the stochastic version. We apply our algorithm to several fundamental applications — including dynamic pricing and auction reserve tuning — all under adversarial reward models. While these domains often violate Lipschitzness, our analysis only requires a weaker version thereof, allowing for meaningful regret bounds without additional smoothness assumptions. Notably, we extend our results to multi-product dynamic pricing with non-smooth reward structures, a setting which does not even satisfy one-sided Lipschitzness.

arxiv情報

著者 Chara Podimata,Aleksandrs Slivkins
発行日 2025-06-12 17:48:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.GT, cs.LG, stat.ML | Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning はコメントを受け付けていません

Cybernetic Marionette: Channeling Collective Agency Through a Wearable Robot in a Live Dancer-Robot Duet

要約

ダンス^2について説明します。これは、ダンス^2で、観客がダンサーの体に貼られたウェアラブルロボットの行動に投票することにより、集団代理店をダンサー – ロボットデュエットに導きます。
パフォーマンス中の重要な瞬間に、聴衆は振り付けを続けるか、それをオーバーライドするように招待され、リアルタイムの集合的な入力を通じて展開する相互作用を形作ります。
パフォーマンス後の調査により、参加者は自分の選択がパフォーマンスに有意義に影響を与えると感じていることが明らかになりましたが、4つのパブリックパフォーマンスにわたって投票データが驚くほど一貫したパターンを示しました。
視聴者がしていること、彼らが感じること、そして実際に変化するものとの間のこの緊張は、エージェントの行動、代理店の経験、権力の間の複雑な相互作用を強調しています。
振り付け、相互作用設計、パフォーマンスの構造がこの関係を媒介する方法を振り返り、エージェンシーが感じられているが行使されていないアルゴリズム的にキュレーションされたデジタルシステムのライブアナロジーを提供します。

要約(オリジナル)

We describe DANCE^2, an interactive dance performance in which audience members channel their collective agency into a dancer-robot duet by voting on the behavior of a wearable robot affixed to the dancer’s body. At key moments during the performance, the audience is invited to either continue the choreography or override it, shaping the unfolding interaction through real-time collective input. While post-performance surveys revealed that participants felt their choices meaningfully influenced the performance, voting data across four public performances exhibited strikingly consistent patterns. This tension between what audience members do, what they feel, and what actually changes highlights a complex interplay between agentive behavior, the experience of agency, and power. We reflect on how choreography, interaction design, and the structure of the performance mediate this relationship, offering a live analogy for algorithmically curated digital systems where agency is felt, but not exercised.

arxiv情報

著者 Anup Sathya,Jiasheng Li,Zeyu Yan,Adriane Fang,Bill Kules,Jonathan David Martin,Huaishu Peng
発行日 2025-06-11 18:01:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Cybernetic Marionette: Channeling Collective Agency Through a Wearable Robot in a Live Dancer-Robot Duet はコメントを受け付けていません

Leveraging LLMs for Mission Planning in Precision Agriculture

要約

ロボット工学と人工知能は、精密な農業を進めるための重大な可能性を秘めています。
ロボットシステムはさまざまなタスク用に正常に展開されていますが、特にエンドユーザーが技術的な専門知識を欠いていることが多いため、多様なミッションを実行するために適応するために適応することは依然として困難です。
このホワイトペーパーでは、大規模な言語モデル(LLM)、特にChatGPTを活用するエンドツーエンドのシステムを提示して、ユーザーが自然言語の指示を使用して自律ロボットに複雑なデータ収集タスクを割り当てることができます。
再利用性を向上させるために、ミッションプランは既存のIEEEタスク仕様標準を使用してエンコードされ、既存のROSライブラリに高レベルのミッション説明をブリッジするROS2ノードを介してロボットで実行されます。
広範な実験を通じて、このコンテキストでのLLMの強みと制限、特に空間的推論と複雑なルーティングの課題の解決に関して強調され、提案された実装がどのようにそれらを克服するかを示します。

要約(オリジナル)

Robotics and artificial intelligence hold significant potential for advancing precision agriculture. While robotic systems have been successfully deployed for various tasks, adapting them to perform diverse missions remains challenging, particularly because end users often lack technical expertise. In this paper, we present an end-to-end system that leverages large language models (LLMs), specifically ChatGPT, to enable users to assign complex data collection tasks to autonomous robots using natural language instructions. To enhance reusability, mission plans are encoded using an existing IEEE task specification standard, and are executed on robots via ROS2 nodes that bridge high-level mission descriptions with existing ROS libraries. Through extensive experiments, we highlight the strengths and limitations of LLMs in this context, particularly regarding spatial reasoning and solving complex routing challenges, and show how our proposed implementation overcomes them.

arxiv情報

著者 Marcos Abel Zuzuárregui,Stefano Carpin
発行日 2025-06-11 18:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Leveraging LLMs for Mission Planning in Precision Agriculture はコメントを受け付けていません

Estimating the Joint Probability of Scenario Parameters with Gaussian Mixture Copula Models

要約

このホワイトペーパーでは、自動化された運転システムの安全検証のための運転シナリオの統計的モデリングへのガウス混合コピュラモデルの最初のアプリケーションを提示します。
シナリオパラメーターの共同確率分布の知識は、リスクの定量化がコンクリートパラメーターの組み合わせの可能性に依存するシナリオベースの安全性評価に不可欠です。
ガウス混合物コピュラモデルは、ガウス混合モデルのマルチモーダルな表現力とコピュラの柔軟性をまとめ、限界分布と依存関係の個別のモデリングを可能にします。
以前に提案されたアプローチに対してガウス混合物コピュラモデル – ガウス混合モデルとガウスコピュラモデルをベンチマークします – 国連規制番号157で定義されたシナリオから描かれた現実世界の駆動データを使用しています。
これらの結果は、ガウス混合物コピュラモデルが、将来のシナリオベースの検証フレームワークの魅力的な基盤であることを示唆しています。

要約(オリジナル)

This paper presents the first application of Gaussian Mixture Copula Models to the statistical modeling of driving scenarios for the safety validation of automated driving systems. Knowledge of the joint probability distribution of scenario parameters is essential for scenario-based safety assessment, where risk quantification depends on the likelihood of concrete parameter combinations. Gaussian Mixture Copula Models bring together the multimodal expressivity of Gaussian Mixture Models and the flexibility of copulas, enabling separate modeling of marginal distributions and dependencies. We benchmark Gaussian Mixture Copula Models against previously proposed approaches – Gaussian Mixture Models and Gaussian Copula Models – using real-world driving data drawn from scenarios defined in United Nations Regulation No. 157. Our evaluation across 18 million scenario instances demonstrates that Gaussian Mixture Copula Models provide a better fit to the data in terms of both likelihood and Sinkhorn distance. These results suggest that Gaussian Mixture Copula Models are a compelling foundation for future scenario-based validation frameworks.

arxiv情報

著者 Christian Reichenbächer,Philipp Rank,Jochen Hipp,Oliver Bringmann
発行日 2025-06-11 18:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Estimating the Joint Probability of Scenario Parameters with Gaussian Mixture Copula Models はコメントを受け付けていません

One For All: LLM-based Heterogeneous Mission Planning in Precision Agriculture

要約

人工知能は精密農業を変革し、農民に日常業務を合理化するための新しいツールを提供しています。
これらの技術的進歩は効率の向上を約束しますが、多くの場合、技術の採用と既存のワークロードのバランスをとらなければならない非技術的なユーザーにとって特に困難な追加の複雑さと急な学習曲線を導入します。
この論文では、非専門家が共通のインターフェイスを介して不均一ロボットを制御できるようにする自然言語(NL)ロボットミッションプランナーを紹介します。
大規模な言語モデル(LLM)と事前定義されたプリミティブを活用することにより、私たちのアーキテクチャは、異なるロボットプラットフォームで実行できる中間の説明に人間の言語をシームレスに変換します。
このシステムを使用すると、ユーザーはコードを作成せずに複雑な農業ミッションを策定できます。
このペーパーで紹介した作業では、ロボット操作とコンピュータービジョンタスクを含む新しいクラスの実験を通じて、車輪付きロボットミッション計画のために調整された以前のシステムを拡張します。
私たちの結果は、アーキテクチャが多様なロボットのセットをサポートするのに十分な一般的であり、複雑なミッションリクエストを実行するのに十分なほど強力であることを示しています。
この作業は、非技術的なユーザーがよりアクセスしやすい精密農業におけるロボットオートメーションを作るための重要なステップを表しています。

要約(オリジナル)

Artificial intelligence is transforming precision agriculture, offering farmers new tools to streamline their daily operations. While these technological advances promise increased efficiency, they often introduce additional complexity and steep learning curves that are particularly challenging for non-technical users who must balance tech adoption with existing workloads. In this paper, we present a natural language (NL) robotic mission planner that enables non-specialists to control heterogeneous robots through a common interface. By leveraging large language models (LLMs) and predefined primitives, our architecture seamlessly translates human language into intermediate descriptions that can be executed by different robotic platforms. With this system, users can formulate complex agricultural missions without writing any code. In the work presented in this paper, we extend our previous system tailored for wheeled robot mission planning through a new class of experiments involving robotic manipulation and computer vision tasks. Our results demonstrate that the architecture is both general enough to support a diverse set of robots and powerful enough to execute complex mission requests. This work represents a significant step toward making robotic automation in precision agriculture more accessible to non-technical users.

arxiv情報

著者 Marcos Abel Zuzuárregui,Mustafa Melih Toslak,Stefano Carpin
発行日 2025-06-11 18:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | One For All: LLM-based Heterogeneous Mission Planning in Precision Agriculture はコメントを受け付けていません

Provable Sim-to-Real Transfer via Offline Domain Randomization

要約

強化学習エージェントは、シミュレーションから実際の世界に展開されたときに苦労することがよくあります。
SIMからリアルのギャップを減らすための支配的な戦略は、サンプリングダイナミクスパラメーターによって生成される多くのシミュレーターでポリシーをトレーニングするドメインランダム化(DR)ですが、Standard DRは実際のシステムからすでに利用可能なオフラインデータを無視します。
オフラインドメインランダム化(ODR)を研究します。これは、最初にシミュレータパラメーターを介してオフラインデータセットに分布しています。
成長する経験的作業は、Dropoなどのアルゴリズムを使用してかなりの利益を報告していますが、ODRの理論的基礎はほとんど未踏のままです。
この作業では、(i)ODRをパラメトリックシミュレーターファミリーに対する最大尤度推定として形式化します。(ii)データセットが伸びるにつれて真のダイナミクスに収束することを示す軽度の規則性と識別可能条件の下でのこの推定器の一貫性を証明します。
連続設定)、および(iv)e-Dropoを導入します。これは、分散の崩壊を防ぐエントロピーボーナスを追加し、実際により広範なランダム化とより堅牢なゼロショット転送をもたらすエントロピーボーナスを追加します。

要約(オリジナル)

Reinforcement-learning agents often struggle when deployed from simulation to the real-world. A dominant strategy for reducing the sim-to-real gap is domain randomization (DR) which trains the policy across many simulators produced by sampling dynamics parameters, but standard DR ignores offline data already available from the real system. We study offline domain randomization (ODR), which first fits a distribution over simulator parameters to an offline dataset. While a growing body of empirical work reports substantial gains with algorithms such as DROPO, the theoretical foundations of ODR remain largely unexplored. In this work, we (i) formalize ODR as a maximum-likelihood estimation over a parametric simulator family, (ii) prove consistency of this estimator under mild regularity and identifiability conditions, showing it converges to the true dynamics as the dataset grows, (iii) derive gap bounds demonstrating ODRs sim-to-real error is up to an O(M) factor tighter than uniform DR in the finite-simulator case (and analogous gains in the continuous setting), and (iv) introduce E-DROPO, a new version of DROPO which adds an entropy bonus to prevent variance collapse, yielding broader randomization and more robust zero-shot transfer in practice.

arxiv情報

著者 Arnaud Fickinger,Abderrahim Bendahi,Stuart Russell
発行日 2025-06-11 19:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Provable Sim-to-Real Transfer via Offline Domain Randomization はコメントを受け付けていません

Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge

要約

私たちは、具体化されたエージェントの社会的認識と協力をテストするために設計された包括的な具体化されたソーシャルインテリジェンスチャレンジである制約付きの人間協力(CHAIC)を紹介します。
Chaicでは、目標は、自己中心的観測を装備した具体化されたエージェントであり、たとえば、高い場所に到達できない、または車椅子に閉じ込められていない人間を支援することです。
これを達成するには、成功したヘルパーが次のようにしなければなりません。(1)人間の意図と制約を推測し、人間の行動を観察し(社会的認識)、(2)人間のパートナーに合わせて調整された協力計画を作成して、できるだけ早くタスクを解決し、チームとして協力します(協力計画)。
この課題をベンチマークするために、さまざまな制約、緊急イベント、潜在的なリスクを備えた屋内と屋外の両方のシーンを備えた、実際の物理的制約と8つの長老タスクを備えた4つの新しいエージェントを作成します。
チャレンジに関する計画および学習ベースのベースラインをベンチマークし、大規模な言語モデルと動作モデリングを活用する新しい方法を導入します。
経験的評価は、機械の社会的知能の重要な側面の体系的な評価を可能にする際のベンチマークの有効性を示しています。
当社のベンチマークとコードは、https://github.com/umass-embodied-agi/chaicで公開されています。

要約(オリジナル)

We introduce Constrained Human-AI Cooperation (CHAIC), an inclusive embodied social intelligence challenge designed to test social perception and cooperation in embodied agents. In CHAIC, the goal is for an embodied agent equipped with egocentric observations to assist a human who may be operating under physical constraints — e.g., unable to reach high places or confined to a wheelchair — in performing common household or outdoor tasks as efficiently as possible. To achieve this, a successful helper must: (1) infer the human’s intents and constraints by following the human and observing their behaviors (social perception), and (2) make a cooperative plan tailored to the human partner to solve the task as quickly as possible, working together as a team (cooperative planning). To benchmark this challenge, we create four new agents with real physical constraints and eight long-horizon tasks featuring both indoor and outdoor scenes with various constraints, emergency events, and potential risks. We benchmark planning- and learning-based baselines on the challenge and introduce a new method that leverages large language models and behavior modeling. Empirical evaluations demonstrate the effectiveness of our benchmark in enabling systematic assessment of key aspects of machine social intelligence. Our benchmark and code are publicly available at https://github.com/UMass-Embodied-AGI/CHAIC.

arxiv情報

著者 Weihua Du,Qiushi Lyu,Jiaming Shan,Zhenting Qi,Hongxin Zhang,Sunli Chen,Andi Peng,Tianmin Shu,Kwonjoon Lee,Behzad Dariush,Chuang Gan
発行日 2025-06-11 19:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge はコメントを受け付けていません

Active inference as a unified model of collision avoidance behavior in human drivers

要約

衝突回避は、迅速な脅威の検出と適切な回避操作の迅速な実行を伴う – は、運転の重要な側面です。
ただし、人間の衝突回避行動の既存のモデルは断片化されており、特定のシナリオに焦点を当てたり、応答時間などの回避行動の特定の側面のみを説明しています。
このペーパーでは、積極的な推論に基づいた人間の衝突回避行動の新しい計算認知モデルを提案することにより、これらのギャップに対処します。
アクティブな推論は、人間の行動をモデル化するための統一されたアプローチ、つまり自由エネルギーの最小化を提供します。
以前の積極的な推論作業に基づいて、私たちのモデルには、2つの異なる衝突回避シナリオで人間の反応をシミュレートするための証拠蓄積などの確立された認知メカニズムが組み込まれています:対向車両による最前線のリード車両ブレーキングと横方向の侵入。
私たちのモデルは、人間の衝突回避行動に関する以前の経験的発見の幅広い範囲を説明していることを実証します。
具体的には、このモデルは、以前に報告されたメタ分析からの集計結果の両方を密接に再現し、応答タイミング、操作の選択、実行など、最近の運転シミュレーター研究で観察された詳細なシナリオ固有の効果の両方の総分析から密接に再現します。
私たちの結果は、複雑な現実の駆動タスクにおける人間の行動を理解し、モデル化するための統一されたフレームワークとしての積極的な推論の可能性を強調しています。

要約(オリジナル)

Collision avoidance — involving a rapid threat detection and quick execution of the appropriate evasive maneuver — is a critical aspect of driving. However, existing models of human collision avoidance behavior are fragmented, focusing on specific scenarios or only describing certain aspects of the avoidance behavior, such as response times. This paper addresses these gaps by proposing a novel computational cognitive model of human collision avoidance behavior based on active inference. Active inference provides a unified approach to modeling human behavior: the minimization of free energy. Building on prior active inference work, our model incorporates established cognitive mechanisms such as evidence accumulation to simulate human responses in two distinct collision avoidance scenarios: front-to-rear lead vehicle braking and lateral incursion by an oncoming vehicle. We demonstrate that our model explains a wide range of previous empirical findings on human collision avoidance behavior. Specifically, the model closely reproduces both aggregate results from meta-analyses previously reported in the literature and detailed, scenario-specific effects observed in a recent driving simulator study, including response timing, maneuver selection, and execution. Our results highlight the potential of active inference as a unified framework for understanding and modeling human behavior in complex real-life driving tasks.

arxiv情報

著者 Julian F. Schumann,Johan Engström,Leif Johnson,Matthew O’Kelly,Joao Messias,Jens Kober,Arkady Zgonnikov
発行日 2025-06-11 19:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Active inference as a unified model of collision avoidance behavior in human drivers はコメントを受け付けていません