Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models

要約

不確実性の定量化は、現代のAIシステムの信頼性と信頼性を評価するために不可欠です。
既存のアプローチの中で、自然言語を通してモデルが自信を表現する言葉である不確実性は、大規模な言語モデル(LLM)で軽量で解釈可能な解決策として浮上しています。
ただし、Vision-Language Models(VLM)におけるその有効性は、まだ十分に研究されていません。
この作業では、VLMに対する言葉による信頼性の包括的な評価を実施し、3つのモデルカテゴリ、4つのタスクドメイン、3つの評価シナリオにまたがります。
私たちの結果は、現在のVLMがしばしば、多様なタスクと設定全体に顕著な誤りを表示することを示しています。
特に、視覚的推論モデル(つまり、画像で考える)は一貫してより良いキャリブレーションを示し、信頼できる不確実性の推定にはモダリティ固有の推論が重要であることを示唆しています。
キャリブレーションの課題にさらに対処するために、マルチモーダル設定での信頼度の調整を改善する2段階のプロンプト戦略である視覚的な自信対応プロンプトを紹介します。
全体として、私たちの研究では、モダリティ全体のVLMSの固有の誤りを強調しています。
さらに広く言えば、私たちの調査結果は、信頼できるマルチモーダルシステムの進歩におけるモダリティアラインメントとモデルの忠実さの基本的な重要性を強調しています。

要約(オリジナル)

Uncertainty quantification is essential for assessing the reliability and trustworthiness of modern AI systems. Among existing approaches, verbalized uncertainty, where models express their confidence through natural language, has emerged as a lightweight and interpretable solution in large language models (LLMs). However, its effectiveness in vision-language models (VLMs) remains insufficiently studied. In this work, we conduct a comprehensive evaluation of verbalized confidence in VLMs, spanning three model categories, four task domains, and three evaluation scenarios. Our results show that current VLMs often display notable miscalibration across diverse tasks and settings. Notably, visual reasoning models (i.e., thinking with images) consistently exhibit better calibration, suggesting that modality-specific reasoning is critical for reliable uncertainty estimation. To further address calibration challenges, we introduce Visual Confidence-Aware Prompting, a two-stage prompting strategy that improves confidence alignment in multimodal settings. Overall, our study highlights the inherent miscalibration in VLMs across modalities. More broadly, our findings underscore the fundamental importance of modality alignment and model faithfulness in advancing reliable multimodal systems.

arxiv情報

著者 Weihao Xuan,Qingcheng Zeng,Heli Qi,Junjue Wang,Naoto Yokoya
発行日 2025-05-26 17:16:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models はコメントを受け付けていません

Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding in LLMs

要約

アラビア語の詩は、アラビア語で最も豊かで最も文化的に根ざした表現形式の1つであり、その階層化された意味、文体の多様性、深い歴史的連続性で知られています。
大規模な言語モデル(LLM)は、言語とタスク全体で強力なパフォーマンスを実証していますが、アラビア語の詩を理解する能力はほとんど未踏のままです。
この作業では、12の歴史的時代におけるLLMSによるアラビア語の詩の理解を評価するために設計された最初のベンチマークである\ emph {fannまたはflop}を紹介します。
ベンチマークは、意味の理解、比phorの解釈、韻律の認識、文化的文脈を評価する説明を含む詩のキュレーションされたコーパスで構成されています。
詩的な理解は、LLMがアラビア語の詩を通して古典的なアラビア語をどれほど優れているかをテストするための強力な指標を提供すると主張します。
表面レベルのタスクとは異なり、このドメインには、より深い解釈的推論と文化的感受性が必要です。
最先端のLLMSの評価は、標準的なアラビア語のベンチマークに関する強力な結果にもかかわらず、ほとんどのモデルが詩的な理解に苦労していることを示しています。
アラビア語モデルの厳密な評価と進歩を可能にするオープンソースリソースとして、評価スイートとともに「ファンまたはフロップ」をリリースします。
コードは、https://github.com/mbzuai-oryx/fannorflopで入手できます。

要約(オリジナル)

Arabic poetry is one of the richest and most culturally rooted forms of expression in the Arabic language, known for its layered meanings, stylistic diversity, and deep historical continuity. Although large language models (LLMs) have demonstrated strong performance across languages and tasks, their ability to understand Arabic poetry remains largely unexplored. In this work, we introduce \emph{Fann or Flop}, the first benchmark designed to assess the comprehension of Arabic poetry by LLMs in 12 historical eras, covering 14 core poetic genres and a variety of metrical forms, from classical structures to contemporary free verse. The benchmark comprises a curated corpus of poems with explanations that assess semantic understanding, metaphor interpretation, prosodic awareness, and cultural context. We argue that poetic comprehension offers a strong indicator for testing how good the LLM understands classical Arabic through Arabic poetry. Unlike surface-level tasks, this domain demands deeper interpretive reasoning and cultural sensitivity. Our evaluation of state-of-the-art LLMs shows that most models struggle with poetic understanding despite strong results on standard Arabic benchmarks. We release ‘Fann or Flop’ along with the evaluation suite as an open-source resource to enable rigorous evaluation and advancement for Arabic language models. Code is available at: https://github.com/mbzuai-oryx/FannOrFlop.

arxiv情報

著者 Wafa Alghallabi,Ritesh Thawkar,Sara Ghaboura,Ketan More,Omkar Thawakar,Hisham Cholakkal,Salman Khan,Rao Muhammad Anwer
発行日 2025-05-26 17:52:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding in LLMs はコメントを受け付けていません

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

要約

対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があります。
既存の3Dトーキングヘッドジェネレーションモデルは、話すかリスニングに焦点を当て、インタラクティブな会話の自然なダイナミクスを無視し、不自然な相互作用と厄介な移行につながります。
この問題に対処するために、3Dトーキングヘッド生成のためのマルチラウンドのデュアルスピーカーインタラクション – 継続的な会話でスピーキングとリスニングの両方の行動を処理および生成する必要がある新しいタスクを提案します。
このタスクを解決するために、スピーカーとリスナーの動的な動作を統合して現実的で首尾一貫した対話の相互作用をシミュレートする新しい統一されたフレームワークであるDualtalkを紹介します。
このフレームワークは、話すときにリアルなトーキングヘッドを統合するだけでなく、聞くときに連続的で鮮明な非言語的フィードバックを生成し、役割間の相互作用を効果的にキャプチャします。
また、1,000文字以上の50時間のマルチラウンド会話を特徴とする新しいデータセットを作成します。参加者は、スピーキングとリスニングの役割を継続的に切り替えます。
広範な実験は、私たちの方法がデュアルスピーカーの会話における3Dトーキングヘッドの自然性と表現力を大幅に向上させることを示しています。
補足ビデオを見ることをお勧めします:https://ziqiaopeng.github.io/dualtalk。

要約(オリジナル)

In face-to-face conversations, individuals need to switch between speaking and listening roles seamlessly. Existing 3D talking head generation models focus solely on speaking or listening, neglecting the natural dynamics of interactive conversation, which leads to unnatural interactions and awkward transitions. To address this issue, we propose a new task — multi-round dual-speaker interaction for 3D talking head generation — which requires models to handle and generate both speaking and listening behaviors in continuous conversation. To solve this task, we introduce DualTalk, a novel unified framework that integrates the dynamic behaviors of speakers and listeners to simulate realistic and coherent dialogue interactions. This framework not only synthesizes lifelike talking heads when speaking but also generates continuous and vivid non-verbal feedback when listening, effectively capturing the interplay between the roles. We also create a new dataset featuring 50 hours of multi-round conversations with over 1,000 characters, where participants continuously switch between speaking and listening roles. Extensive experiments demonstrate that our method significantly enhances the naturalness and expressiveness of 3D talking heads in dual-speaker conversations. We recommend watching the supplementary video: https://ziqiaopeng.github.io/dualtalk.

arxiv情報

著者 Ziqiao Peng,Yanbo Fan,Haoyu Wu,Xuan Wang,Hongyan Liu,Jun He,Zhaoxin Fan
発行日 2025-05-26 15:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations はコメントを受け付けていません

DTRT: Enhancing Human Intent Estimation and Role Allocation for Physical Human-Robot Collaboration

要約

物理的な人間のロボットコラボレーション(PHRC)では、正確な人間の意図の推定と合理的な人間ロボットの役割の割り当てが、安全で効率的な支援のために重要です。
意図推定のために短期モーションデータに依存する既存の方法は、マルチステップ予測機能を欠いており、意図の変化を感知し、人間のロボットの割り当てを自律的に調整する能力を妨げ、潜在的な矛盾をもたらします。
これらの問題に対処するために、階層的なアーキテクチャを特徴とするデュアルトランスベースのロボットトラクトロン(DTRT)を提案します。これは、人間の誘導運動と強制データを活用して、人間の意図の変化を迅速にキャプチャし、正確な軌道予測と効果的なコラボレーションのための動的ロボットの動作調整を可能にします。
具体的には、DTRTのヒトの意図推定では、2つの変圧器ベースの条件付き変動自動エンコーダー(CVAE)を使用し、障害物のない軌跡と障害物回避の力を備えた障害物のないケースにロボットモーションデータを組み込みます。
さらに、微分協同ゲーム理論(DCGT)が採用され、人間が適用された力に基づいて予測を合成し、ロボットの行動が人間の意図に合わせて確実に整列しています。
最先端の(SOTA)方法と比較して、DTRTは人間のダイナミクスを長期的な予測に組み込み、意図の正確な理解を提供し、合理的な役割の割り当てを可能にし、ロボットの自律性と操縦性を達成します。
実験は、DTRTの正確な意図の推定と優れたコラボレーションパフォーマンスを示しています。

要約(オリジナル)

In physical Human-Robot Collaboration (pHRC), accurate human intent estimation and rational human-robot role allocation are crucial for safe and efficient assistance. Existing methods that rely on short-term motion data for intention estimation lack multi-step prediction capabilities, hindering their ability to sense intent changes and adjust human-robot assignments autonomously, resulting in potential discrepancies. To address these issues, we propose a Dual Transformer-based Robot Trajectron (DTRT) featuring a hierarchical architecture, which harnesses human-guided motion and force data to rapidly capture human intent changes, enabling accurate trajectory predictions and dynamic robot behavior adjustments for effective collaboration. Specifically, human intent estimation in DTRT uses two Transformer-based Conditional Variational Autoencoders (CVAEs), incorporating robot motion data in obstacle-free case with human-guided trajectory and force for obstacle avoidance. Additionally, Differential Cooperative Game Theory (DCGT) is employed to synthesize predictions based on human-applied forces, ensuring robot behavior align with human intention. Compared to state-of-the-art (SOTA) methods, DTRT incorporates human dynamics into long-term prediction, providing an accurate understanding of intention and enabling rational role allocation, achieving robot autonomy and maneuverability. Experiments demonstrate DTRT’s accurate intent estimation and superior collaboration performance.

arxiv情報

著者 Haotian Liu,Yuchuang Tong,Zhengtao Zhang
発行日 2025-05-26 15:15:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | DTRT: Enhancing Human Intent Estimation and Role Allocation for Physical Human-Robot Collaboration はコメントを受け付けていません

Semantic Correspondence: Unified Benchmarking and a Strong Baseline

要約

セマンティック対応を確立することは、キーポイントを異なる画像間で同じセマンティック情報と一致させることを目指して、コンピュータービジョンにおける挑戦的なタスクです。
深い学習の急速な発展の恩恵を受けて、過去10年間で顕著な進歩が遂げられてきました。
ただし、このタスクの包括的なレビューと分析には不在のままです。
この論文では、セマンティック対応方法の最初の広範な調査を紹介します。
最初に、メソッド設計のタイプに基づいて既存のメソッドを分類するための分類法を提案します。
これらの方法はそれに応じて分類され、各アプローチの詳細な分析を提供します。
さらに、パフォーマンスのバリエーションを強調するための詳細な構成を備えた、さまざまなベンチマークを越えた文献のメソッドの結果を統一された比較表に集約して要約します。
さらに、セマンティックマッチングの既存の方法に関する詳細な理解を提供するために、さまざまな方法のコンポーネントの有効性を分析するために、制御された実験を徹底的に実施します。
最後に、複数のベンチマークで最先端のパフォーマンスを達成するシンプルで効果的なベースラインを提案し、この分野での将来の研究のための強固な基盤を提供します。
この調査が、将来の開発のための包括的な参照および統合ベースラインとして機能することを願っています。
コードは、https://github.com/visual-ai/semantic-corrypondenceで公開されています。

要約(オリジナル)

Establishing semantic correspondence is a challenging task in computer vision, aiming to match keypoints with the same semantic information across different images. Benefiting from the rapid development of deep learning, remarkable progress has been made over the past decade. However, a comprehensive review and analysis of this task remains absent. In this paper, we present the first extensive survey of semantic correspondence methods. We first propose a taxonomy to classify existing methods based on the type of their method designs. These methods are then categorized accordingly, and we provide a detailed analysis of each approach. Furthermore, we aggregate and summarize the results of methods in literature across various benchmarks into a unified comparative table, with detailed configurations to highlight performance variations. Additionally, to provide a detailed understanding on existing methods for semantic matching, we thoroughly conduct controlled experiments to analyse the effectiveness of the components of different methods. Finally, we propose a simple yet effective baseline that achieves state-of-the-art performance on multiple benchmarks, providing a solid foundation for future research in this field. We hope this survey serves as a comprehensive reference and consolidated baseline for future development. Code is publicly available at: https://github.com/Visual-AI/Semantic-Correspondence.

arxiv情報

著者 Kaiyan Zhang,Xinghui Li,Jingyi Lu,Kai Han
発行日 2025-05-26 12:40:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Semantic Correspondence: Unified Benchmarking and a Strong Baseline はコメントを受け付けていません

TokBench: Evaluating Your Visual Tokenizer before Visual Generation

要約

この作業では、細粒の特徴を保存する際の視覚トークナザーとVAEの限界を明らかにし、テキストと顔の2つの挑戦的な視覚コンテンツの再構成パフォーマンスを評価するためのベンチマークを提案します。
視覚トークナーとVAEは、より効率的な圧縮または量子化された画像表現を提供することにより、視覚生成とマルチモーダルモデリングを大幅に進めました。
ただし、生産モデルが計算負担を軽減するのを支援する一方で、画像圧縮による情報損失は視覚生成品質の上限を根本的に制限します。
この上限を評価するために、通常:1)より小さなスケールで存在するので、再構築されたテキストと顔の特徴の評価に焦点を当てます。
最初に、既存のデータセットからさまざまなクリアテキストと顔の画像のセットを収集してキュレートします。
VLMモデルを使用したアプローチとは異なり、評価のために確立されたOCRおよびフェイス認識モデルを採用し、非常に軽量評価プロセスを維持しながら精度を確保します完了するには2GBのメモリと4分が必要です。
ベンチマークを使用して、さまざまな画像トーナイザーとVAEのさまざまなスケールでテキストと顔の再構成品質を分析します。
私たちの結果は、現代の視覚トークンザーが、特に小規模で、きめ細かい機能を維持するのに依然として苦労していることを示しています。
さらに、この評価フレームワークをビデオに拡張し、ビデオトークナーの包括的な分析を実施します。
さらに、従来のメトリックが顔とテキストの再構成パフォーマンスを正確に反映していない一方で、提案されたメトリックが効果的な補完として機能することを実証します。

要約(オリジナル)

In this work, we reveal the limitations of visual tokenizers and VAEs in preserving fine-grained features, and propose a benchmark to evaluate reconstruction performance for two challenging visual contents: text and face. Visual tokenizers and VAEs have significantly advanced visual generation and multimodal modeling by providing more efficient compressed or quantized image representations. However, while helping production models reduce computational burdens, the information loss from image compression fundamentally limits the upper bound of visual generation quality. To evaluate this upper bound, we focus on assessing reconstructed text and facial features since they typically: 1) exist at smaller scales, 2) contain dense and rich textures, 3) are prone to collapse, and 4) are highly sensitive to human vision. We first collect and curate a diverse set of clear text and face images from existing datasets. Unlike approaches using VLM models, we employ established OCR and face recognition models for evaluation, ensuring accuracy while maintaining an exceptionally lightweight assessment process requiring just 2GB memory and 4 minutes to complete. Using our benchmark, we analyze text and face reconstruction quality across various scales for different image tokenizers and VAEs. Our results show modern visual tokenizers still struggle to preserve fine-grained features, especially at smaller scales. We further extend this evaluation framework to video, conducting comprehensive analysis of video tokenizers. Additionally, we demonstrate that traditional metrics fail to accurately reflect reconstruction performance for faces and text, while our proposed metrics serve as an effective complement.

arxiv情報

著者 Junfeng Wu,Dongliang Luo,Weizhi Zhao,Zhihao Xie,Yuanhao Wang,Junyi Li,Xudong Xie,Yuliang Liu,Xiang Bai
発行日 2025-05-26 13:30:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DB | TokBench: Evaluating Your Visual Tokenizer before Visual Generation はコメントを受け付けていません

Semi-Supervised Model-Free Bayesian State Estimation from Compressed Measurements

要約

モデルのないプロセスの圧縮測定(BSCM)からのデータ駆動型ベイジアン状態の推定を検討します。
時間測定ベクターの次元は、推定される側頭状態ベクターの次元よりも低く、決定不足の逆問題につながります。
州の進化の基礎となる動的モデルは、「モデルのないプロセス」では不明です。
したがって、たとえば、カルマンや粒子フィルターなど、従来のモデル駆動型の方法を使用することは困難です。
代わりに、データ駆動型の方法を検討します。
2つの既存の監視されていない学習ベースのデータ駆動型メソッドが、モデルのないプロセスでBSCM問題に対処できないことを実験的に示します。
方法は、データ駆動型の非線形状態推定(DANSE)およびディープマルコフモデル(DMM)です。
Danseは、時間系列として時間測定データをモデル化するために優れた予測/予測パフォーマンスを提供しますが、監視されていない学習には、BSCMタスクに取り組むのに適した正則化がありません。
次に、半教師の学習アプローチを提案し、Semidanseと呼ばれる半教師の学習ベースのDanseメソッドを開発します。
Semidanseでは、限られた量のラベル付きデータ、つまり目的の正則化を提供するペアワイズ測定と状態のデータとともに、大量の非標識データを使用します。
3つのベンチマークダイナミカルシステムを使用して、データ駆動型のSemidanseが、動的モデルを正確に知っているカルマネットと2つのモデル駆動型メソッド(拡張カルマンフィルターと無濃縮カルマンフィルター)と呼ばれるハイブリッドメソッドに対して、少数の異なる測定システムを使用してBSCMの競合状態推定パフォーマンスを提供することを経験的に示します。

要約(オリジナル)

We consider data-driven Bayesian state estimation from compressed measurements (BSCM) of a model-free process. The dimension of the temporal measurement vector is lower than that of the temporal state vector to be estimated, leading to an under-determined inverse problem. The underlying dynamical model of the state’s evolution is unknown for a ‘model-free process.’ Hence, it is difficult to use traditional model-driven methods, for example, Kalman and particle filters. Instead, we consider data-driven methods. We experimentally show that two existing unsupervised learning-based data-driven methods fail to address the BSCM problem in a model-free process. The methods are — data-driven nonlinear state estimation (DANSE) and deep Markov model (DMM). While DANSE provides good predictive/forecasting performance to model the temporal measurement data as a time series, its unsupervised learning lacks suitable regularization for tackling the BSCM task. We then propose a semi-supervised learning approach and develop a semi-supervised learning-based DANSE method, referred to as SemiDANSE. In SemiDANSE, we use a large amount of unlabelled data along with a limited amount of labelled data, i.e., pairwise measurement-and-state data, which provides the desired regularization. Using three benchmark dynamical systems, we empirically show that the data-driven SemiDANSE provides competitive state estimation performance for BSCM using a handful of different measurement systems, against a hybrid method called KalmanNet and two model-driven methods (extended Kalman filter and unscented Kalman filter) that know the dynamical models exactly.

arxiv情報

著者 Anubhab Ghosh,Yonina C. Eldar,Saikat Chatterjee
発行日 2025-05-26 05:10:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Semi-Supervised Model-Free Bayesian State Estimation from Compressed Measurements はコメントを受け付けていません

Safe PDE Boundary Control with Neural Operators

要約

物理的な世界のダイナミクスは、一般に、科学と工学の問題において未知の分析形態を持つ基礎となる部分微分方程式(PDE)によって支配されています。
ニューラルネットワークベースのデータ駆動型アプローチは、近年PDEの問題をシミュレートおよび解決する際に大いに研究されてきましたが、理解から未知のPDEダイナミクスの制御に進むことは依然として困難です。
PDE境界制御は、制御入力と出力としてPDE境界条件にのみ焦点を合わせることにより、簡素化されたが重要な問題を具体化します。
ただし、現在のモデルのないPDEコントローラーは、境界出力が特定のユーザー指定された安全性の制約を満たすことを保証することはできません。
この目的のために、現在のモデルのないコントローラーのセーフセット内に境界出力が維持されることを保証する安全フィルタリングフレームワークを提案します。
具体的には、最初に神経境界制御障壁関数(BCBF)を導入して、境界出力の軌跡ごとの制約満足度の実現可能性を確保します。
境界制御入力から出力軌道への伝達関数のモデリング神経演算子に基づいて、BCBFの変化は入力境界の変化に直線的に依存するため、事前に訓練されたモデルのないコントローラーのために二次プログラミングベースの安全フィルタリングを実行できます。
挑戦的な双曲線、放物線、ナビエのストークスPDEダイナミクス環境に基づく広範な実験は、バニラと制約されたモデルのないコントローラーベースラインと比較して、より良い一般的なパフォーマンスと境界制約の満足度を達成することにより、提案された方法のプラグアンドプレイの有効性を検証します。
このコードは、https://github.com/intelligent-control-lab/safe-pde-controlで入手できます。

要約(オリジナル)

The physical world dynamics are generally governed by underlying partial differential equations (PDEs) with unknown analytical forms in science and engineering problems. Neural network based data-driven approaches have been heavily studied in simulating and solving PDE problems in recent years, but it is still challenging to move forward from understanding to controlling the unknown PDE dynamics. PDE boundary control instantiates a simplified but important problem by only focusing on PDE boundary conditions as the control input and output. However, current model-free PDE controllers cannot ensure the boundary output satisfies some given user-specified safety constraint. To this end, we propose a safety filtering framework to guarantee the boundary output stays within the safe set for current model-free controllers. Specifically, we first introduce a neural boundary control barrier function (BCBF) to ensure the feasibility of the trajectory-wise constraint satisfaction of boundary output. Based on the neural operator modeling the transfer function from boundary control input to output trajectories, we show that the change in the BCBF depends linearly on the change in input boundary, so quadratic programming-based safety filtering can be done for pre-trained model-free controllers. Extensive experiments under challenging hyperbolic, parabolic and Navier-Stokes PDE dynamics environments validate the plug-and-play effectiveness of the proposed method by achieving better general performance and boundary constraint satisfaction compared to the vanilla and constrained model-free controller baselines. The code is available at https://github.com/intelligent-control-lab/safe-pde-control.

arxiv情報

著者 Hanjiang Hu,Changliu Liu
発行日 2025-05-22 18:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, cs.RO, cs.SY, eess.SY | Safe PDE Boundary Control with Neural Operators はコメントを受け付けていません

LiloDriver: A Lifelong Learning Framework for Closed-loop Motion Planning in Long-tail Autonomous Driving Scenarios

要約

堅牢で安全で適応的なモーションプランナーに対する自律的な運転研究の最近の進歩。
ただし、既存のルールベースとデータ駆動型プランナーは、長期尾のシナリオへの適応性がありませんが、知識駆動型の方法は強力な推論を提供しますが、表現、制御、および現実世界の評価における課題に直面しています。
これらの課題に対処するために、ロングテールの自律運転シナリオでの閉ループモーション計画のための生涯学習フレームワークであるLilodriverを提示します。
大規模な言語モデル(LLMS)をメモリの熟成プランナー生成システムと統合することにより、Lilodriverは再訓練なしで新しいシナリオに継続的に適応します。
認識、シーンエンコード、メモリベースの戦略の改良、LLM誘導推論などの4段階のアーキテクチャを備えています。
Nuplanベンチマークで評価されたLilodriverは、一般的な運転シナリオとレアドライビングシナリオの両方で優れたパフォーマンスを達成し、静的ルールベースと学習ベースのプランナーよりも優れています。
私たちの結果は、実世界の自律運転におけるスケーラブルで人間のような動きの計画を可能にするために、構造化されたメモリとLLMの推論を組み合わせることの有効性を強調しています。
私たちのコードは、https://github.com/hyan-yao/lilodriverで入手できます。

要約(オリジナル)

Recent advances in autonomous driving research towards motion planners that are robust, safe, and adaptive. However, existing rule-based and data-driven planners lack adaptability to long-tail scenarios, while knowledge-driven methods offer strong reasoning but face challenges in representation, control, and real-world evaluation. To address these challenges, we present LiloDriver, a lifelong learning framework for closed-loop motion planning in long-tail autonomous driving scenarios. By integrating large language models (LLMs) with a memory-augmented planner generation system, LiloDriver continuously adapts to new scenarios without retraining. It features a four-stage architecture including perception, scene encoding, memory-based strategy refinement, and LLM-guided reasoning. Evaluated on the nuPlan benchmark, LiloDriver achieves superior performance in both common and rare driving scenarios, outperforming static rule-based and learning-based planners. Our results highlight the effectiveness of combining structured memory and LLM reasoning to enable scalable, human-like motion planning in real-world autonomous driving. Our code is available at https://github.com/Hyan-Yao/LiloDriver.

arxiv情報

著者 Huaiyuan Yao,Pengfei Li,Bu Jin,Yupeng Zheng,An Liu,Lisen Mu,Qing Su,Qian Zhang,Yilun Chen,Peng Li
発行日 2025-05-22 18:33:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, cs.AI, cs.RO, I.2.6 | LiloDriver: A Lifelong Learning Framework for Closed-loop Motion Planning in Long-tail Autonomous Driving Scenarios はコメントを受け付けていません

Model Identification Adaptive Control with $ρ$-POMDP Planning

要約

正確なシステムモデリングは、特に部分的な観測可能性の下で、誤認が累積エラーにつながる可能性があるため、安全で効果的な制御には重要です。
信念宇宙計画の問題として有益な入力設計とモデル識別適応制御(MIAC)を策定することにより、この問題に対処します。
システムのパラメーターを、システムを同時に制御しながらローカライズする必要がある隠された状態変数として扱います。
この問題は、適応された信念空間反復線形二次レギュレーター(BILQR)で解決します。
カートポールおよび安定した航空機の飛行ドメインの完全かつ部分的に観察可能なタスクでそれを示します。
私たちの方法は、システムパラメーターへの瞬時の妨害下であっても、回帰、フィルタリング、局所的な最適制御方法などのベースラインよりも優れています。

要約(オリジナル)

Accurate system modeling is crucial for safe, effective control, as misidentification can lead to accumulated errors, especially under partial observability. We address this problem by formulating informative input design and model identification adaptive control (MIAC) as belief space planning problems, modeled as partially observable Markov decision processes with belief-dependent rewards ($\rho$-POMDPs). We treat system parameters as hidden state variables that must be localized while simultaneously controlling the system. We solve this problem with an adapted belief-space iterative Linear Quadratic Regulator (BiLQR). We demonstrate it on fully and partially observable tasks for cart-pole and steady aircraft flight domains. Our method outperforms baselines such as regression, filtering, and local optimal control methods, even under instantaneous disturbances to system parameters.

arxiv情報

著者 Michelle Ho,Arec Jamgochian,Mykel J. Kochenderfer
発行日 2025-05-22 20:15:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Model Identification Adaptive Control with $ρ$-POMDP Planning はコメントを受け付けていません