α-RACER: Real-Time Algorithm for Game-Theoretic Motion Planning and Control in Autonomous Racing using Near-Potential Function

要約

自律的なレースは、その物理的な限界でレースカーを制御するという課題を超えています。
プロのレーサーは、戦略的な操作を採用して、勝利を確保するために他の競合する敵を追い越します。
最新のコントロールアルゴリズムは、単一車シナリオのオフラインレースラインを計算することにより、人間レベルのパフォーマンスを実現できますが、マルチカーの自律レースのリアルタイムアルゴリズムに関する研究は限られています。
このギャップを埋めるために、私たちは、その限界で車を操作しながら、新しい政策パラメーター化を追い越してブロックするなど、自律レースの競争的側面を組み込んだゲーム理論モデリングフレームワークを開発します。
さらに、競合するエージェントの存在下での最適なアプローチを表す(近似)ナッシュ平衡戦略を計算するためのアルゴリズムアプローチを提案します。
具体的には、最近導入された動的近電位関数のフレームワークに触発されたアルゴリズムを導入し、NASH平衡のリアルタイム計算を可能にします。
私たちのアプローチは、オフラインとオンラインの2つのフェーズで構成されています。
オフラインフェーズでは、シミュレートされたレーシングデータを使用して、エージェントのユーティリティの変化に近似する近接関数を学習します。
この関数は、その価値を最大化することにより、近似ナッシュ平衡のオンライン計算を容易にします。
私たちは、いくつかの既存のベースラインと比較して優れたパフォーマンスを実証する、直接的な3台の車のレースシナリオで方法を評価します。

要約(オリジナル)

Autonomous racing extends beyond the challenge of controlling a racecar at its physical limits. Professional racers employ strategic maneuvers to outwit other competing opponents to secure victory. While modern control algorithms can achieve human-level performance by computing offline racing lines for single-car scenarios, research on real-time algorithms for multi-car autonomous racing is limited. To bridge this gap, we develop game-theoretic modeling framework that incorporates the competitive aspect of autonomous racing like overtaking and blocking through a novel policy parametrization, while operating the car at its limit. Furthermore, we propose an algorithmic approach to compute the (approximate) Nash equilibrium strategy, which represents the optimal approach in the presence of competing agents. Specifically, we introduce an algorithm inspired by recently introduced framework of dynamic near-potential function, enabling real-time computation of the Nash equilibrium. Our approach comprises two phases: offline and online. During the offline phase, we use simulated racing data to learn a near-potential function that approximates utility changes for agents. This function facilitates the online computation of approximate Nash equilibria by maximizing its value. We evaluate our method in a head-to-head 3-car racing scenario, demonstrating superior performance compared to several existing baselines.

arxiv情報

著者 Dvij Kalaria,Chinmay Maheshwari,Shankar Sastry
発行日 2025-04-24 20:18:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.RO | α-RACER: Real-Time Algorithm for Game-Theoretic Motion Planning and Control in Autonomous Racing using Near-Potential Function はコメントを受け付けていません

Learning Attentive Neural Processes for Planning with Pushing Actions

要約

私たちの目標は、ロボットがテーブルトップアクションのシーケンスを計画して、未知の物理的特性を持つブロックをテーブル上の望ましい目標ポーズに押し込むことを可能にすることです。
ロボットがプッシュの結果を観察できるが、ダイナミクスを支配するブロックの物理的特性は不明のままである場合、部分的に観測可能なマルコフ決定プロセス(POMDP)の構成モデルを学習することにより、この問題にアプローチします。
プッシュ問題は、州の推定の課題により解決するのが難しいPOMDPです。
物理的特性は、結果と非線形の関係を持ち、信念を表すために粒子フィルターなどの計算上の高価な方法を必要とします。
気配りのある神経プロセスアーキテクチャを活用して、粒子フィルターを、作用の履歴を考慮して物理的特性に対する推論計算を学習するニューラルネットワークに置き換えることを提案します。
この神経プロセスは、二重進行性拡大(NPT-DPW)を備えた神経プロセスツリーとして計画に統合されています。
シミュレーション結果は、NPT-DPWが、複雑なプッシュシナリオであっても、従来の粒子フィルター法よりも速い計画を生成することを示しています。

要約(オリジナル)

Our goal is to enable robots to plan sequences of tabletop actions to push a block with unknown physical properties to a desired goal pose on the table. We approach this problem by learning the constituent models of a Partially-Observable Markov Decision Process (POMDP), where the robot can observe the outcome of a push, but the physical properties of the block that govern the dynamics remain unknown. The pushing problem is a difficult POMDP to solve due to the challenge of state estimation. The physical properties have a nonlinear relationship with the outcomes, requiring computationally expensive methods, such as particle filters, to represent beliefs. Leveraging the Attentive Neural Process architecture, we propose to replace the particle filter with a neural network that learns the inference computation over the physical properties given a history of actions. This Neural Process is integrated into planning as the Neural Process Tree with Double Progressive Widening (NPT-DPW). Simulation results indicate that NPT-DPW generates more effective plans faster than traditional particle filter methods, even in complex pushing scenarios.

arxiv情報

著者 Atharv Jain,Seiji Shaw,Nicholas Roy
発行日 2025-04-24 20:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Attentive Neural Processes for Planning with Pushing Actions はコメントを受け付けていません

Embodied Visuomotor Representation

要約

あなたの机に座って、その上のさまざまなオブジェクトを見て想像してみてください。
メートルで目からの正確な距離を知りませんが、手を伸ばして触れることができます。
外部から定義されたユニットの代わりに、あなたの距離感は本質的にあなたの具体化に対するあなたの行動の影響に結び付けられています。
対照的に、従来のロボット工学は、個別のビジョンと制御プロセスが通信する外部ユニットへの正確なキャリブレーションに依存しています。
これには、簡単に再構成できない高度に設計された高価なシステムが必要です。
これに対処するために、具体化された視覚運動表現を紹介します。これは、ロボットが彼らの行動によって暗示されるユニットの距離を推測する方法論です。
つまり、キャリブレーションされた3Dセンサーまたは既知の物理モデルに依存しないことです。
それに伴い、そのサイズ、環境スケール、または強度を事前に知ることのないロボットは、操作後数秒以内に障害物に触れてクリアすることをすぐに学ぶことができることを示しています。
同様に、シミュレーションでは、その質量または強度の知識のないエージェントは、いくつかのテスト振動の後、未知のサイズのギャップを正常にジャンプすることができます。
これらの行動は、ミツバチやスナネズミで観察される自然戦略を反映しており、外部ユニットのキャリブレーションも欠けており、ロボット工学のアクション主導型の知覚の可能性を強調しています。

要約(オリジナル)

Imagine sitting at your desk, looking at various objects on it. While you do not know their exact distances from your eye in meters, you can reach out and touch them. Instead of an externally defined unit, your sense of distance is inherently tied to your action’s effect on your embodiment. In contrast, conventional robotics relies on precise calibration to external units with which separate vision and control processes communicate. This necessitates highly engineered and expensive systems that cannot be easily reconfigured. To address this, we introduce Embodied Visuomotor Representation, a methodology through which robots infer distance in a unit implied by their actions. That is, without depending on calibrated 3D sensors or known physical models. With it, we demonstrate that a robot without prior knowledge of its size, environmental scale, or strength can quickly learn to touch and clear obstacles within seconds of operation. Likewise, in simulation, an agent without knowledge of its mass or strength can successfully jump across a gap of unknown size after a few test oscillations. These behaviors mirror natural strategies observed in bees and gerbils, which also lack calibration in an external unit, and highlight the potential for action-driven perception in robotics.

arxiv情報

著者 Levi Burner,Cornelia Fermüller,Yiannis Aloimonos
発行日 2025-04-24 22:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Embodied Visuomotor Representation はコメントを受け付けていません

CIVIL: Causal and Intuitive Visual Imitation Learning

要約

今日のロボットは、人間の例を模倣することで新しいタスクを学びます。
ただし、視覚模倣学習に対するこの標準的なアプローチは根本的に限られています。ロボットは、人間が何をするかを観察しますが、人間がそれらの行動を選択する理由ではありません。
ロボット学習者は、人間の決定にその要因を考慮せずに、データを誤って解釈し、環境が変化したときにタスクを実行できないことがよくあります。
したがって、私たちは視点の変化を提案します。ロボットがどのような行動をとるべきかを示すためだけに人間の教師に尋ねる代わりに、人間はマーカーと言語プロンプトを使用してタスクに関連する機能を示すことができます。
提案されたアルゴリズムであるCivilは、この増強されたデータを活用して、ロボットの視覚的観察をフィルタリングし、人間の行動を因果的に情報に因果的に伝える機能表現を抽出します。
市民は、これらの因果関係を適用して、視覚的な注意散漫に混乱することなく人間の行動をエミュレートするトランスベースのポリシーを訓練します。
私たちのシミュレーション、現実世界の実験、およびユーザー調査は、市民で訓練されたロボットが、より少ない人間のデモから学習し、特に以前に見えなかったシナリオで最先端のベースラインよりも優れたパフォーマンスを発揮できることを示しています。
プロジェクトWebサイトのビデオを参照してください:https://civil2025.github.io

要約(オリジナル)

Today’s robots learn new tasks by imitating human examples. However, this standard approach to visual imitation learning is fundamentally limited: the robot observes what the human does, but not why the human chooses those behaviors. Without understanding the features that factor into the human’s decisions, robot learners often misinterpret the data and fail to perform the task when the environment changes. We therefore propose a shift in perspective: instead of asking human teachers just to show what actions the robot should take, we also enable humans to indicate task-relevant features using markers and language prompts. Our proposed algorithm, CIVIL, leverages this augmented data to filter the robot’s visual observations and extract a feature representation that causally informs human actions. CIVIL then applies these causal features to train a transformer-based policy that emulates human behaviors without being confused by visual distractors. Our simulations, real-world experiments, and user study demonstrate that robots trained with CIVIL can learn from fewer human demonstrations and perform better than state-of-the-art baselines, especially in previously unseen scenarios. See videos at our project website: https://civil2025.github.io

arxiv情報

著者 Yinlong Dai,Robert Ramirez Sanchez,Ryan Jeronimus,Shahabedin Sagheb,Cara M. Nunez,Heramb Nemlekar,Dylan P. Losey
発行日 2025-04-24 22:08:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | CIVIL: Causal and Intuitive Visual Imitation Learning はコメントを受け付けていません

Plug-and-Play Physics-informed Learning using Uncertainty Quantified Port-Hamiltonian Models

要約

周囲のエージェントと障害物の軌跡を予測する能力は、多くのロボットアプリケーションで重要なコンポーネントです。
データ駆動型のアプローチは、基礎となるダイナミクスが不明なシナリオでは、状態予測に一般的に採用されています。
ただし、トレーニングデータと比較して分散型の観察に遭遇すると、データ駆動型の予測因子のパフォーマンス、信頼性、および不確実性が損なわれます。
この論文では、この課題に対処するために、プラグアンドプレイの物理学に基づいた機械学習(PNP-PIML)フレームワークを紹介します。
私たちの方法は、外れ値のダイナミクスを識別するためにコンフォーマル予測を採用しており、その場合、名目予測因子から物理的整合性モデル、つまり分散型ポートハミルトニアンシステム(DPH)に切り替えます。
ガウスプロセスを活用してDPHSのエネルギー関数をモデル化し、システムのダイナミクスの学習だけでなく、ベイジアンの性質を介した予測不確実性の定量化も可能にします。
このようにして、提案されたフレームワークは、分散型シナリオでも信頼できる物理学に基づいた予測を生成します。

要約(オリジナル)

The ability to predict trajectories of surrounding agents and obstacles is a crucial component in many robotic applications. Data-driven approaches are commonly adopted for state prediction in scenarios where the underlying dynamics are unknown. However, the performance, reliability, and uncertainty of data-driven predictors become compromised when encountering out-of-distribution observations relative to the training data. In this paper, we introduce a Plug-and-Play Physics-Informed Machine Learning (PnP-PIML) framework to address this challenge. Our method employs conformal prediction to identify outlier dynamics and, in that case, switches from a nominal predictor to a physics-consistent model, namely distributed Port-Hamiltonian systems (dPHS). We leverage Gaussian processes to model the energy function of the dPHS, enabling not only the learning of system dynamics but also the quantification of predictive uncertainty through its Bayesian nature. In this way, the proposed framework produces reliable physics-informed predictions even for the out-of-distribution scenarios.

arxiv情報

著者 Kaiyuan Tan,Peilun Li,Jun Wang,Thomas Beckers
発行日 2025-04-24 22:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Plug-and-Play Physics-informed Learning using Uncertainty Quantified Port-Hamiltonian Models はコメントを受け付けていません

Virtual Roads, Smarter Safety: A Digital Twin Framework for Mixed Autonomous Traffic Safety Analysis

要約

このペーパーでは、混合交通環境でのアクティブな安全分析のためのデジタルツインプラットフォームを紹介します。
このプラットフォームは、ドローンベースの空中ライダー、OpenStreetMap、および車両センサーデータ(GPSや傾斜計の測定値など)から構築されたマルチモーダルデータ対応交通環境を使用して構築されています。
高解像度3D道路幾何学は、AIを搭載したセマンティックセグメンテーションと航空ライダーデータのジオレフェンスを通じて生成されます。
現実世界の運転シナリオをシミュレートするために、プラットフォームは、自動車学習(CARLA)シミュレーター、都市モビリティ(SUMO)トラフィックモデルのシミュレーション、およびNVIDIA Physx Vehicle Dynamics Engineを統合します。
Carlaは、詳細なマイクロレベルのセンサーと知覚データを提供し、SUMOはマクロレベルのトラフィックフローを管理します。
Nvidia Physxは、多様な条件下で車両の行動の正確なモデリングを可能にし、質量分布、タイヤ摩擦、および質量中心を占めます。
この統合システムは、自律車と従来の車両間の複雑な相互作用をキャプチャする高忠実度シミュレーションをサポートします。
実験結果は、現実的な車両のダイナミクスとトラフィックシナリオを再現するプラットフォームの能力を示しており、アクティブな安全対策の分析を強化します。
全体として、提案されたフレームワークは、動的および不均一な交通環境における車両行動の物理学に基づいた評価を可能にすることにより、交通安全調査を進めます。

要約(オリジナル)

This paper presents a digital-twin platform for active safety analysis in mixed traffic environments. The platform is built using a multi-modal data-enabled traffic environment constructed from drone-based aerial LiDAR, OpenStreetMap, and vehicle sensor data (e.g., GPS and inclinometer readings). High-resolution 3D road geometries are generated through AI-powered semantic segmentation and georeferencing of aerial LiDAR data. To simulate real-world driving scenarios, the platform integrates the CAR Learning to Act (CARLA) simulator, Simulation of Urban MObility (SUMO) traffic model, and NVIDIA PhysX vehicle dynamics engine. CARLA provides detailed micro-level sensor and perception data, while SUMO manages macro-level traffic flow. NVIDIA PhysX enables accurate modeling of vehicle behaviors under diverse conditions, accounting for mass distribution, tire friction, and center of mass. This integrated system supports high-fidelity simulations that capture the complex interactions between autonomous and conventional vehicles. Experimental results demonstrate the platform’s ability to reproduce realistic vehicle dynamics and traffic scenarios, enhancing the analysis of active safety measures. Overall, the proposed framework advances traffic safety research by enabling in-depth, physics-informed evaluation of vehicle behavior in dynamic and heterogeneous traffic environments.

arxiv情報

著者 Hao Zhang,Ximin Yue,Kexin Tian,Sixu Li,Keshu Wu,Zihao Li,Dominique Lord,Yang Zhou
発行日 2025-04-24 22:27:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Virtual Roads, Smarter Safety: A Digital Twin Framework for Mixed Autonomous Traffic Safety Analysis はコメントを受け付けていません

Fuzzy-RRT for Obstacle Avoidance in a 2-DOF Semi-Autonomous Surgical Robotic Arm

要約

AI駆動型の半自律的なロボット手術は、限られた乗組員のサイズとコミュニケーションの遅れが従来の外科的アプローチを制限する長期惑星間ミッションの医学的課題に対処するために不可欠です。
現在のロボット手術システムには、完全な外科医の制御が必要であり、広範な専門知識を要求し、宇宙での実現可能性を制限しています。
私たちは、小型のロボット支援手術システムでモデル化された2度のフリードームロボットアームにおける障害物の回避と共同制御のためのファジーのランダムツリーアルゴリズムの新規適応を提案します。
ファジーが急速に発見されたランダムツリーアルゴリズムにより、パス検索時間が743%改善され、パスコストが43%改善されることがわかりました。

要約(オリジナル)

AI-driven semi-autonomous robotic surgery is essential for addressing the medical challenges of long-duration interplanetary missions, where limited crew sizes and communication delays restrict traditional surgical approaches. Current robotic surgery systems require full surgeon control, demanding extensive expertise and limiting feasibility in space. We propose a novel adaptation of the Fuzzy Rapidly-exploring Random Tree algorithm for obstacle avoidance and collaborative control in a two-degree-of-freedom robotic arm modeled on the Miniaturized Robotic-Assisted surgical system. It was found that the Fuzzy Rapidly-exploring Random Tree algorithm resulted in an 743 percent improvement to path search time and 43 percent improvement to path cost.

arxiv情報

著者 Kaaustaaub Shankar,Wilhelm Louw,Bharadwaj Dogga,Nick Ernest,Tim Arnett,Kelly Cohen
発行日 2025-04-24 23:19:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Fuzzy-RRT for Obstacle Avoidance in a 2-DOF Semi-Autonomous Surgical Robotic Arm はコメントを受け付けていません

RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation

要約

最近の画像ゴールナビゲーション(ImagENAV)メソッドは、目標とエゴセントリック画像のセマンティック機能を個別にキャプチャして、ポリシーネットワークに渡すことにより、知覚アクションポリシーを学習します。
ただし、課題は残っています。(1)セマンティック機能は、正確な方向情報を提供できず、余分なアクションにつながることが多く、(2)トレーニングとアプリケーションの間に視点の矛盾が生じるとパフォーマンスが大幅に低下します。
これらの課題に対処するために、RSRNAVを提案します。RSRNAVは、目標と現在の観測との間の空間的な関係をナビゲーションガイダンスとして推論するシンプルで効果的な方法です。
具体的には、目標と現在の観測との間に相関関係を構築することにより、空間関係をモデル化し、アクション予測のためにポリシーネットワークに渡されます。
これらの相関は、より正確なナビゲーションのために、きめ細かい相互相関と方向対応相関を使用して徐々に洗練されています。
3つのベンチマークデータセットでのRSRNAVの広範な評価は、特に「ユーザーがマッチした目標」設定で優れたナビゲーションパフォーマンスを示し、実際のアプリケーションの可能性を強調しています。

要約(オリジナル)

Recent image-goal navigation (ImageNav) methods learn a perception-action policy by separately capturing semantic features of the goal and egocentric images, then passing them to a policy network. However, challenges remain: (1) Semantic features often fail to provide accurate directional information, leading to superfluous actions, and (2) performance drops significantly when viewpoint inconsistencies arise between training and application. To address these challenges, we propose RSRNav, a simple yet effective method that reasons spatial relationships between the goal and current observations as navigation guidance. Specifically, we model the spatial relationship by constructing correlations between the goal and current observations, which are then passed to the policy network for action prediction. These correlations are progressively refined using fine-grained cross-correlation and direction-aware correlation for more precise navigation. Extensive evaluation of RSRNav on three benchmark datasets demonstrates superior navigation performance, particularly in the ‘user-matched goal’ setting, highlighting its potential for real-world applications.

arxiv情報

著者 Zheng Qin,Le Wang,Yabing Wang,Sanping Zhou,Gang Hua,Wei Tang
発行日 2025-04-25 00:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation はコメントを受け付けていません

Sky-Drive: A Distributed Multi-Agent Simulation Platform for Socially-Aware and Human-AI Collaborative Future Transportation

要約

自律システムシミュレーションプラットフォームの最近の進歩により、運転ポリシーの安全でスケーラブルなテストが大幅に向上しました。
ただし、既存のシミュレーターは、特に社会的に認識された運転エージェントのモデル化や、効果的な人間とのコラボレーションを可能にする際に、将来の輸送研究のニーズをまだ完全に満たしていません。
このペーパーでは、4つの主要な革新を通じてこれらの制限に対処する新しい分散マルチエージェントシミュレーションプラットフォームであるSky-driveを紹介します。(a)複数の端子にわたる同期シミュレーションの分散アーキテクチャ。
(b)多様なセンサーを統合して豊富な行動データを収集する多様なループフレームワーク。
(c)継続的かつ適応的な知識交換をサポートする人間と協力的なメカニズム。
(d)現実世界の輸送環境の高忠実度仮想レプリカを構築するためのデジタルツイン(DT)フレームワーク。
Sky-driveは、自動運転車(AV)爆発可能な道路ユーザー(VRU)相互作用モデリング、人間のループトレーニング、社会的に認識した強化学習、パーソナライズされた運転ポリシー、カスタマイズされたシナリオ生成など、多様なアプリケーションをサポートしています。
将来の拡張機能には、コンテキスト対応の意思決定サポートと、実世界の検証のためのループハードウェア(HIL)テストのための基礎モデルが組み込まれます。
シナリオの生成、データ収集、アルゴリズムトレーニング、ハードウェア統合をブリッジングすることにより、Sky-driveは、次世代の社会的に認識された人間中心の自律輸送研究の基礎プラットフォームになる可能性があります。
デモビデオとコードは、https://sky-lab-uw.github.io/sky-drive-website/で入手できます。

要約(オリジナル)

Recent advances in autonomous system simulation platforms have significantly enhanced the safe and scalable testing of driving policies. However, existing simulators do not yet fully meet the needs of future transportation research, particularly in modeling socially-aware driving agents and enabling effective human-AI collaboration. This paper introduces Sky-Drive, a novel distributed multi-agent simulation platform that addresses these limitations through four key innovations: (a) a distributed architecture for synchronized simulation across multiple terminals; (b) a multi-modal human-in-the-loop framework integrating diverse sensors to collect rich behavioral data; (c) a human-AI collaboration mechanism supporting continuous and adaptive knowledge exchange; and (d) a digital twin (DT) framework for constructing high-fidelity virtual replicas of real-world transportation environments. Sky-Drive supports diverse applications such as autonomous vehicle (AV)-vulnerable road user (VRU) interaction modeling, human-in-the-loop training, socially-aware reinforcement learning, personalized driving policy, and customized scenario generation. Future extensions will incorporate foundation models for context-aware decision support and hardware-in-the-loop (HIL) testing for real-world validation. By bridging scenario generation, data collection, algorithm training, and hardware integration, Sky-Drive has the potential to become a foundational platform for the next generation of socially-aware and human-centered autonomous transportation research. The demo video and code are available at:https://sky-lab-uw.github.io/Sky-Drive-website/

arxiv情報

著者 Zilin Huang,Zihao Sheng,Zhengyang Wan,Yansong Qu,Yuhao Luo,Boyue Wang,Pei Li,Yen-Jung Chen,Jiancong Chen,Keke Long,Jiayi Meng,Yue Leng,Sikai Chen
発行日 2025-04-25 01:33:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Sky-Drive: A Distributed Multi-Agent Simulation Platform for Socially-Aware and Human-AI Collaborative Future Transportation はコメントを受け付けていません

A Large Vision-Language Model based Environment Perception System for Visually Impaired People

要約

視覚障害のある人々が自然なシーンの複雑さのために周囲の環境を知覚することは困難な作業です。
したがって、彼らの個人的および社会的活動は非常に限られています。
このペーパーでは、ウェアラブルデバイスで直面している現在のシーンをキャプチャし、デバイスを介して分析結果を取得できるようにすることにより、周囲の環境をよりよく理解するのに役立つ大規模なビジョン言語モデル(LVLM)ベースの環境知覚システムを紹介します。
視覚障害のある人々は、画面を長く押してLVLM出力をアクティブにし、画面をタップまたはスワイプすることでセグメンテーションモデルから生じるシーンのオブジェクトのカテゴリを取得し、画面をダブルタップすることで興味のあるオブジェクトの詳細な説明を取得することにより、シーンのグローバルな説明を取得できます。
視覚障害のある人々が世界をより正確に知覚するのを助けるために、このホワイトペーパーでは、RGB画像のセグメンテーション結果を外部知識としてLVLMの入力に組み込むことを提案して、LVLMの幻覚を減らします。
教皇、MME、およびLlava-QA90に関する技術実験は、Qwen-VL-chatと比較してシステムがシーンのより正確な説明を提供できることを示しています。探索的実験は、システムが周囲の環境を効果的に知覚する視覚障害者に役立つことを示しています。

要約(オリジナル)

It is a challenging task for visually impaired people to perceive their surrounding environment due to the complexity of the natural scenes. Their personal and social activities are thus highly limited. This paper introduces a Large Vision-Language Model(LVLM) based environment perception system which helps them to better understand the surrounding environment, by capturing the current scene they face with a wearable device, and then letting them retrieve the analysis results through the device. The visually impaired people could acquire a global description of the scene by long pressing the screen to activate the LVLM output, retrieve the categories of the objects in the scene resulting from a segmentation model by tapping or swiping the screen, and get a detailed description of the objects they are interested in by double-tapping the screen. To help visually impaired people more accurately perceive the world, this paper proposes incorporating the segmentation result of the RGB image as external knowledge into the input of LVLM to reduce the LVLM’s hallucination. Technical experiments on POPE, MME and LLaVA-QA90 show that the system could provide a more accurate description of the scene compared to Qwen-VL-Chat, exploratory experiments show that the system helps visually impaired people to perceive the surrounding environment effectively.

arxiv情報

著者 Zezhou Chen,Zhaoxiang Liu,Kai Wang,Kohou Wang,Shiguo Lian
発行日 2025-04-25 02:46:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | A Large Vision-Language Model based Environment Perception System for Visually Impaired People はコメントを受け付けていません