Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception

要約

安全性の高い認識システムには、信頼できる不確実性の定量化と、さまざまな運用条件下で安全性を維持するための原則的な棄権メカニズムの両方が必要です。
統計的に保証された不確実性の推定値を提供しながら、リスクの高いシナリオで選択的な予測を可能にする新しいデュアル閾値立体化フレームワークを提示します。
私たちのアプローチは、正当な予測を特定しながら、分布のないカバレッジ保証(\ ge 1 – \ alpha)を提供しながら、ROC分析を通じて最適化された棄権のしきい値を保証する有効な予測セットを確保するコンフォーマルしきい値を一意に組み合わせています。
CIFAR-100、ImagENET1K、およびModelNet40データセットの包括的な評価を通じて、さまざまな環境摂動の下でカメラとライダーモダリティ全体で優れた堅牢性を示します。
このフレームワークは、環境の重大度としての高いカバレッジ(> 90.0 \%)を維持し、適応棄権(13.5 \%\%\ PM0.5)を環境の重症度として維持し、環境の重症度として適応的棄権(> 90.0 \%)を維持しながら、厳しい条件下で、例外的な検出パフォーマンス(AUC:0.993 \ to0.995)を達成します。
増加します。
LIDARベースの認識の場合、私たちのアプローチは特に強力なパフォーマンスを示し、堅牢なカバレッジ(> 84.5 \%)を維持しながら、信頼できない予測を適切に控えています。
特に、このフレームワークは、重い摂動の下で顕著な安定性を示しており、検出性能(AUC:0.995 \ PM0.001)がすべてのモダリティにわたって既存の方法を大幅に上回っています。
統一されたアプローチは、理論的保証と実用的な展開ニーズの間のギャップを橋渡しし、挑戦的な現実世界の条件で動作する安全性クリティカルな自律システムに堅牢なソリューションを提供します。

要約(オリジナル)

Safety-critical perception systems require both reliable uncertainty quantification and principled abstention mechanisms to maintain safety under diverse operational conditions. We present a novel dual-threshold conformalization framework that provides statistically-guaranteed uncertainty estimates while enabling selective prediction in high-risk scenarios. Our approach uniquely combines a conformal threshold ensuring valid prediction sets with an abstention threshold optimized through ROC analysis, providing distribution-free coverage guarantees (\ge 1 – \alpha) while identifying unreliable predictions. Through comprehensive evaluation on CIFAR-100, ImageNet1K, and ModelNet40 datasets, we demonstrate superior robustness across camera and LiDAR modalities under varying environmental perturbations. The framework achieves exceptional detection performance (AUC: 0.993\to0.995) under severe conditions while maintaining high coverage (>90.0\%) and enabling adaptive abstention (13.5\%\to63.4\%\pm0.5) as environmental severity increases. For LiDAR-based perception, our approach demonstrates particularly strong performance, maintaining robust coverage (>84.5\%) while appropriately abstaining from unreliable predictions. Notably, the framework shows remarkable stability under heavy perturbations, with detection performance (AUC: 0.995\pm0.001) significantly outperforming existing methods across all modalities. Our unified approach bridges the gap between theoretical guarantees and practical deployment needs, offering a robust solution for safety-critical autonomous systems operating in challenging real-world conditions.

arxiv情報

著者 Divake Kumar,Nastaran Darabi,Sina Tayebati,Amit Ranjan Trivedi
発行日 2025-02-11 04:45:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception はコメントを受け付けていません

Action-Free Reasoning for Policy Generalization

要約

エンドツーエンドの模倣学習は、ロボットポリシーをトレーニングするための有望なアプローチを提供します。
ただし、新しい設定への一般化は依然として大きな課題です。
大規模なロボットデモンストレーションデータセットは、一般化を誘導する可能性を示していますが、それらは拡張するためにリソース集約型です。
対照的に、人間のビデオデータは豊富で多様であり、魅力的な選択肢を提示します。
しかし、これらのヒューマンビデオデータセットにはアクションラベルがなく、模倣学習での使用を複雑にしています。
既存の方法は、接地されたアクション表現(例:ハンドポーズ)を抽出しようとしますが、結果として生じるポリシーは、人間とロボットのアクションの間の具体化のギャップを埋めるのに苦労しています。
別のアプローチを提案します。一般化可能なロボットポリシーをトレーニングするためにロボットアクションを導くための人間のビデオからの言語ベースの推論を活用します。
推論ベースのポリシーアーキテクチャの最近の進歩に基づいて、アクションフリーデータ(RAD)を通じて推論を紹介します。
Radは、ロボットデモデータ(推論とアクションラベルを使用)とアクションフリーのヒューマンビデオデータ(推論ラベルのみを使用)の両方から学習します。
ロボットデータは、モデルに推論を低レベルのアクションにマッピングするように教え、一方、アクションフリーのデータは推論機能を強化します。
さらに、ブリッジV2ベ​​ンチマークと互換性のある推論注釈を備えた3,377の人間のハンドデモの新しいデータセットをリリースし、推論主導型のロボット学習に関する将来の研究を促進することを目的としています。
私たちの実験は、RADが具体化のギャップを越えて効果的な転送を可能にし、ロボットがアクションのないデータでのみ見られるタスクを実行できることを示しています。
さらに、アクションフリーの推論データを拡大すると、新しいタスクに対するポリシーのパフォーマンスと一般化が大幅に向上します。
これらの結果は、一般化可能なロボット制御を進めるためのアクションフリーデータセットからの推論主導型の学習の約束を強調しています。
プロジェクトページ:https://rad-generalization.github.io

要約(オリジナル)

End-to-end imitation learning offers a promising approach for training robot policies. However, generalizing to new settings remains a significant challenge. Although large-scale robot demonstration datasets have shown potential for inducing generalization, they are resource-intensive to scale. In contrast, human video data is abundant and diverse, presenting an attractive alternative. Yet, these human-video datasets lack action labels, complicating their use in imitation learning. Existing methods attempt to extract grounded action representations (e.g., hand poses), but resulting policies struggle to bridge the embodiment gap between human and robot actions. We propose an alternative approach: leveraging language-based reasoning from human videos-essential for guiding robot actions-to train generalizable robot policies. Building on recent advances in reasoning-based policy architectures, we introduce Reasoning through Action-free Data (RAD). RAD learns from both robot demonstration data (with reasoning and action labels) and action-free human video data (with only reasoning labels). The robot data teaches the model to map reasoning to low-level actions, while the action-free data enhances reasoning capabilities. Additionally, we will release a new dataset of 3,377 human-hand demonstrations with reasoning annotations compatible with the Bridge V2 benchmark and aimed at facilitating future research on reasoning-driven robot learning. Our experiments show that RAD enables effective transfer across the embodiment gap, allowing robots to perform tasks seen only in action-free data. Furthermore, scaling up action-free reasoning data significantly improves policy performance and generalization to novel tasks. These results highlight the promise of reasoning-driven learning from action-free datasets for advancing generalizable robot control. Project page: https://rad-generalization.github.io

arxiv情報

著者 Jaden Clark,Suvir Mirchandani,Dorsa Sadigh,Suneel Belkhale
発行日 2025-02-11 04:51:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Action-Free Reasoning for Policy Generalization はコメントを受け付けていません

Leader-follower formation enabled by pressure sensing in free-swimming undulatory robotic fish

要約

魚は側面を使用して流れや圧力勾配を感知し、近くのオブジェクトや生物を検出できるようにします。
この能力の複製に向けて、波打つロボット魚($ \ mu $ bot/mubot)の流れ圧センシングを使用して、成功したリーダーフォロワー層水泳を実証しました。
フォロワー$ \ mu $ボットには、頭に両側圧力センサーが装備されており、独自の動きとリーダーの動きの両方に励起された信号を検出します。
第一に、波打つリーダーと静止したフォロワーの間に静的な形成の実験を使用して、フォロワーによって測定された強い圧力変動をもたらす形成を決定しました。
このフォーメーションは、専門家のポリシーを取得するために、自由水泳の望ましいフォーメーションとして選択されました。
次に、ロボットモーターコマンドとオイラーアングル(オンボードIMUで測定)とともに、ステアリングコマンドに加えて、圧力信号をマッピングする制御ポリシーとして長い短期メモリニューラルネットワークが使用されました。
このポリシーは、行動のクローニングとデータセット集約(短剣)を使用して専門家のポリシーを模倣するように訓練されました。
結果は、155 mm/s(= 0.8の速度で泳いでいる間、フォロワーが最大200 mm(= 1体長)の距離内でリーダーを効果的に追跡したことを示しています。
体の長さ/s)。
この作業は、魚に触発されたロボットが流体環境を効果的にナビゲートし、流れ圧力フィードバックを使用して泳ぐ層を達成する可能性を強調しています。

要約(オリジナル)

Fish use their lateral lines to sense flows and pressure gradients, enabling them to detect nearby objects and organisms. Towards replicating this capability, we demonstrated successful leader-follower formation swimming using flow pressure sensing in our undulatory robotic fish ($\mu$Bot/MUBot). The follower $\mu$Bot is equipped at its head with bilateral pressure sensors to detect signals excited by both its own and the leader’s movements. First, using experiments with static formations between an undulating leader and a stationary follower, we determined the formation that resulted in strong pressure variations measured by the follower. This formation was then selected as the desired formation in free swimming for obtaining an expert policy. Next, a long short-term memory neural network was used as the control policy that maps the pressure signals along with the robot motor commands and the Euler angles (measured by the onboard IMU) to the steering command. The policy was trained to imitate the expert policy using behavior cloning and Dataset Aggregation (DAgger). The results show that with merely two bilateral pressure sensors and less than one hour of training data, the follower effectively tracked the leader within distances of up to 200 mm (= 1 body length) while swimming at speeds of 155 mm/s (= 0.8 body lengths/s). This work highlights the potential of fish-inspired robots to effectively navigate fluid environments and achieve formation swimming through the use of flow pressure feedback.

arxiv情報

著者 Kundan Panta,Hankun Deng,Micah DeLattre,Bo Cheng
発行日 2025-02-11 05:56:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Leader-follower formation enabled by pressure sensing in free-swimming undulatory robotic fish はコメントを受け付けていません

Robot Navigation in Unknown and Cluttered Workspace with Dynamical System Modulation in Starshaped Roadmap

要約

楕円またはポリゴンを使用して自由空間を表現する従来の分解方法と比較して、星型の表現はセンサーデータの自然な分布をよりよくキャプチャでき、それによりトラバー可能な空間の大部分を活用できます。
このペーパーでは、動的に構築された星空のロードマップを使用して、未知で乱雑な環境でロボットをナビゲートするための新しいモーションプランニングおよび制御フレームワークを紹介します。
私たちのアプローチは、ピースワイズの多項式を使用して、リアルタイムセンサーデータから周囲の自由空間の星型の表現を生成します。
さらに、接続情報を維持する増分ロードマップが構築され、検索アルゴリズムがこのロードマップで短期目標を効率的に選択します。
重要なことに、このフレームワークは、グラフの更新メカニズムを備えた行き止まりの状況に対処します。
星空のロードマップ内の安全で効率的な動きを確保するために、動的システム変調(DSM)に基づいたリアクティブコントローラーを提案します。
このコントローラーは、星空の領域とその交差点内の滑らかな動きを促進し、保守的で近視の動作を避け、システムが未知の乱雑で乱雑な環境で複雑な障害物構成を処理できるようにします。
シミュレーションと実世界の実験の両方における包括的な評価は、提案された方法が他の方法と比較してより高い成功率と旅行時間の短縮を達成することを示しています。
複雑な障害物構成を効果的に管理し、保守的および近視の行動を避けます。

要約(オリジナル)

Compared to conventional decomposition methods that use ellipses or polygons to represent free space, starshaped representation can better capture the natural distribution of sensor data, thereby exploiting a larger portion of traversable space. This paper introduces a novel motion planning and control framework for navigating robots in unknown and cluttered environments using a dynamically constructed starshaped roadmap. Our approach generates a starshaped representation of the surrounding free space from real-time sensor data using piece-wise polynomials. Additionally, an incremental roadmap maintaining the connectivity information is constructed, and a searching algorithm efficiently selects short-term goals on this roadmap. Importantly, this framework addresses dead-end situations with a graph updating mechanism. To ensure safe and efficient movement within the starshaped roadmap, we propose a reactive controller based on Dynamic System Modulation (DSM). This controller facilitates smooth motion within starshaped regions and their intersections, avoiding conservative and short-sighted behaviors and allowing the system to handle intricate obstacle configurations in unknown and cluttered environments. Comprehensive evaluations in both simulations and real-world experiments show that the proposed method achieves higher success rates and reduced travel times compared to other methods. It effectively manages intricate obstacle configurations, avoiding conservative and myopic behaviors.

arxiv情報

著者 Kai Chen,Haichao Liu,Yulin Li,Jianghua Duan,Lei Zhu,Jun Ma
発行日 2025-02-11 06:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robot Navigation in Unknown and Cluttered Workspace with Dynamical System Modulation in Starshaped Roadmap はコメントを受け付けていません

TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

要約

この作業では、最先端の大型言語モデル(LLM)とビジョン言語モデル(VLMSを使用する4つのサブモジュールに問題を分解することにより、Vision-Language Navigation(VLN)タスクのモジュラーアプローチを提案します。
)ゼロショット設定で。
自然言語でのナビゲーション指示を考えると、最初にLLMにランドマークと訪問の順序を抽出するように促します。
環境の既知のモデルを仮定すると、最後のランドマークのトップKの場所を取得し、環境のトポロジマップで最も短いパスアルゴリズムを使用して、開始場所から最後のランドマークへの$ K $パス仮説を生成します。
各パス仮説は、一連のパノラマで表されます。
次に、動的プログラミングを使用して、パノラマのシーケンスとVLMから得られたスコアに一致するランドマーク名のシーケンス間のアライメントスコアを計算します。
最後に、パスの忠実度を評価するために最高のアライメントスコアを生成する仮説の間にNDTWメトリックを計算します。
複雑なR2R-Habitat \ Cite {R2R}命令データセットでVLMAPS \ Cite {VlMaps}などのジョイントセマンティックマップを使用する他のアプローチと比較して、優れたパフォーマンスを実証し、ナビゲーションパフォーマンスに対する視覚的接地の効果を詳細に定量化します。

要約(オリジナル)

In this work, we propose a modular approach for the Vision-Language Navigation (VLN) task by decomposing the problem into four sub-modules that use state-of-the-art Large Language Models (LLMs) and Vision-Language Models (VLMs) in a zero-shot setting. Given navigation instruction in natural language, we first prompt LLM to extract the landmarks and the order in which they are visited. Assuming the known model of the environment, we retrieve the top-k locations of the last landmark and generate $k$ path hypotheses from the starting location to the last landmark using the shortest path algorithm on the topological map of the environment. Each path hypothesis is represented by a sequence of panoramas. We then use dynamic programming to compute the alignment score between the sequence of panoramas and the sequence of landmark names, which match scores obtained from VLM. Finally, we compute the nDTW metric between the hypothesis that yields the highest alignment score to evaluate the path fidelity. We demonstrate superior performance compared to other approaches that use joint semantic maps like VLMaps \cite{vlmaps} on the complex R2R-Habitat \cite{r2r} instruction dataset and quantify in detail the effect of visual grounding on navigation performance.

arxiv情報

著者 Navid Rajabi,Jana Kosecka
発行日 2025-02-11 07:09:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation はコメントを受け付けていません

The Combined Problem of Online Task Assignment and Lifelong Path Finding in Logistics Warehouses: A Case Study

要約

オンラインタスクの割り当てと生涯のパス発見の問題を組み合わせた問題を調査します。これは、物流業界にとって重要です。
ただし、ほとんどの文献は、(1)特定のタスク割り当て者を仮定して生涯のパスを見つけることに焦点を当てているか、(2)タスクが事前に知られているこの問題のオフラインバージョンを研究しています。
システムスループットを最大化するには、これら2つのコンポーネントを統合するオンラインバージョンに直接取り組む必要があると主張します。
この目的のために、問題とそのソリューションの概念の正式なフレームワークを紹介します。
次に、局所的な混雑を伴う環境でもうまく機能する実用的なロボットモデルの下で、ルールベースの生涯プランナーを設計します。
その結果、基礎となるパスプランナーに関してタスクアサイカーの検索を自動化します。
中国最大のショッピングプラットフォームの1つである\ textit {meituan}の倉庫シナリオで実施されたシミュレーション実験は、(a)〜\ textit {時間効率の観点から}、私たちのシステムは必要な実行時間の83.77%のみを必要としていることを示しています。
Meituanで現在展開されているシステムの場合、8.09 \%で他のSotaアルゴリズムを上回っています。
(b)〜\ textit {経済効率の観点から}、私たちのものは、現在使用中のエージェントの60%だけで同じスループットを達成できます。

要約(オリジナル)

We study the combined problem of online task assignment and lifelong path finding, which is crucial for the logistics industries. However, most literature either (1) focuses on lifelong path finding assuming a given task assigner, or (2) studies the offline version of this problem where tasks are known in advance. We argue that, to maximize the system throughput, the online version that integrates these two components should be tackled directly. To this end, we introduce a formal framework of the combined problem and its solution concept. Then, we design a rule-based lifelong planner under a practical robot model that works well even in environments with severe local congestion. Upon that, we automate the search for the task assigner with respect to the underlying path planner. Simulation experiments conducted in warehouse scenarios at \textit{Meituan}, one of the largest shopping platforms in China, demonstrate that (a)~\textit{in terms of time efficiency}, our system requires only 83.77\% of the execution time needed for the currently deployed system at Meituan, outperforming other SOTA algorithms by 8.09\%; (b)~\textit{in terms of economic efficiency}, ours can achieve the same throughput with only 60\% of the agents currently in use.

arxiv情報

著者 Fengming Zhu,Fangzhen Lin,Weijia Xu,Yifei Guo
発行日 2025-02-11 07:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | The Combined Problem of Online Task Assignment and Lifelong Path Finding in Logistics Warehouses: A Case Study はコメントを受け付けていません

SymbioSim: Human-in-the-loop Simulation Platform for Bidirectional Continuing Learning in Human-Robot Interaction

要約

インテリジェントロボットの発展は、それらを人間の世界にシームレスに統合し、日常生活と仕事に支援と交際を提供し、人間のロボット共生を達成するという究極の目標を提供しようとしています。
このビジョンを実現するには、ロボットは人間との一貫した相互作用とコラボレーションを通じて継続的に学習し、進化する必要がありますが、人間は共有された経験を通じてロボットの理解と信頼を徐々に開発する必要があります。
ただし、物理ロボットのトレーニングとテストのアルゴリズムには、かなりのコストと安全リスクが含まれます。
さらに、現在のロボットシミュレーターは、真の人間の参加をサポートすることができず、本物の相互作用体験を提供し、貴重な人間のフィードバックを収集する能力を制限しています。
このペーパーでは、人間とロボットの相互作用の安全で効率的な開発、評価、最適化を可能にするために設計された、ループ内のロボットシミュレーションプラットフォームである新しいSymbiosimを紹介します。
慎重に設計されたシステムアーキテクチャとモジュールを活用することにより、Symbiosimは自然で現実的な相互作用体験を提供し、人間とロボットの両方の双方向の継続的な学習と適応を促進します。
広範な実験とユーザー研究は、プラットフォームの有望なパフォーマンスを実証し、人間のロボット共生に関する研究を大幅に進める可能性を強調しています。

要約(オリジナル)

The development of intelligent robots seeks to seamlessly integrate them into the human world, providing assistance and companionship in daily life and work, with the ultimate goal of achieving human-robot symbiosis. To realize this vision, robots must continuously learn and evolve through consistent interaction and collaboration with humans, while humans need to gradually develop an understanding of and trust in robots through shared experiences. However, training and testing algorithms directly on physical robots involve substantial costs and safety risks. Moreover, current robotic simulators fail to support real human participation, limiting their ability to provide authentic interaction experiences and gather valuable human feedback. In this paper, we introduce SymbioSim, a novel human-in-the-loop robotic simulation platform designed to enable the safe and efficient development, evaluation, and optimization of human-robot interactions. By leveraging a carefully designed system architecture and modules, SymbioSim delivers a natural and realistic interaction experience, facilitating bidirectional continuous learning and adaptation for both humans and robots. Extensive experiments and user studies demonstrate the platform’s promising performance and highlight its potential to significantly advance research on human-robot symbiosis.

arxiv情報

著者 Haoran Chen,Yiteng Xu,Yiming Ren,Yaoqin Ye,Xinran Li,Ning Ding,Peishan Cong,Ziyi Wang,Bushi Liu,Yuhan Chen,Zhiyang Dou,Xiaokun Leng,Manyi Li,Yuexin Ma,Changhe Tu
発行日 2025-02-11 08:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SymbioSim: Human-in-the-loop Simulation Platform for Bidirectional Continuing Learning in Human-Robot Interaction はコメントを受け付けていません

Socially Pertinent Robots in Gerontological Healthcare

要約

ソーシャルロボット工学の開発と展開における最近の多くの成果にもかかわらず、エンドユーザーによるそのようなシステムの体系的な評価が必要である多くの未脱カッティング環境とアプリケーションがまだ必要です。
いくつかのロボットプラットフォームが老年医学ヘルスケアで使用されていますが、マルチモーダルの会話機能を備えたソーシャルインタラクティブロボットが有用であり、実際の施設で受け入れられるかどうかの問題はまだ答えられていません。
この論文は、社会的および会話的相互作用能力を備えたフルサイズのヒューマノイドロボットを備えたパリのデイケア老人科施設で、患者と仲間との2つの波の実験を介して、この質問に部分的に答える試みです。
H2020 Springプロジェクト中に開発されたソフトウェアアーキテクチャは、実験プロトコルとともに、60を超えるエンドユーザーで許容性(AES)と使いやすさ(SUS)を評価することができました。
全体として、特にロボットの認識とアクションスキルが環境の乱れに堅牢であり、さまざまな相互作用を処理するために柔軟に対処できる場合、ユーザーはこのテクノロジーを受け入れます。

要約(オリジナル)

Despite the many recent achievements in developing and deploying social robotics, there are still many underexplored environments and applications for which systematic evaluation of such systems by end-users is necessary. While several robotic platforms have been used in gerontological healthcare, the question of whether or not a social interactive robot with multi-modal conversational capabilities will be useful and accepted in real-life facilities is yet to be answered. This paper is an attempt to partially answer this question, via two waves of experiments with patients and companions in a day-care gerontological facility in Paris with a full-sized humanoid robot endowed with social and conversational interaction capabilities. The software architecture, developed during the H2020 SPRING project, together with the experimental protocol, allowed us to evaluate the acceptability (AES) and usability (SUS) with more than 60 end-users. Overall, the users are receptive to this technology, especially when the robot perception and action skills are robust to environmental clutter and flexible to handle a plethora of different interactions.

arxiv情報

著者 Xavier Alameda-Pineda,Angus Addlesee,Daniel Hernández García,Chris Reinke,Soraya Arias,Federica Arrigoni,Alex Auternaud,Lauriane Blavette,Cigdem Beyan,Luis Gomez Camara,Ohad Cohen,Alessandro Conti,Sébastien Dacunha,Christian Dondrup,Yoav Ellinson,Francesco Ferro,Sharon Gannot,Florian Gras,Nancie Gunson,Radu Horaud,Moreno D’Incà,Imad Kimouche,Séverin Lemaignan,Oliver Lemon,Cyril Liotard,Luca Marchionni,Mordehay Moradi,Tomas Pajdla,Maribel Pino,Michal Polic,Matthieu Py,Ariel Rado,Bin Ren,Elisa Ricci,Anne-Sophie Rigaud,Paolo Rota,Marta Romeo,Nicu Sebe,Weronika Sieińska,Pinchas Tandeitnik,Francesco Tonini,Nicolas Turro,Timothée Wintz,Yanchao Yu
発行日 2025-02-11 08:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Socially Pertinent Robots in Gerontological Healthcare はコメントを受け付けていません

SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation

要約

多様で動的な環境で動作するロボット操作システムは、マルチタスク相互作用、目に見えないシナリオへの一般化、および空間メモリの3つの重要な能力を示す必要があります。
ロボットの操作では大きな進歩がありましたが、既存のアプローチは、複雑な環境変動とメモリ依存のタスクへの対処に一般化が不十分なことがよくあります。
このギャップを埋めるために、大規模な基礎モデルからの視覚的表現とマルチ解像度のアップサンプリングを活用するマルチビューロボット変圧器ベースのポリシーであるSam2actを紹介します。
SAM2ACTは、RLBenchベンチマークの18のタスクで86.8%の最先端の平均成功率を達成し、コロシュー州ベンチマークの堅牢な一般化を実証し、多様な環境摂動の下でパフォーマンスギャップは4.3%しかありません。
この基盤に基づいて、SAM2ACT+は、SAM2に触発されたメモリベースのアーキテクチャを提案します。SAM2には、メモリバンク、エンコーダー、および空間メモリを強化するための注意メカニズムが組み込まれています。
メモリ依存タスクを評価する必要性に対処するために、ロボット操作における空間メモリとアクションリコールを評価するために設計された新しいベンチマークであるメモリベンチを紹介します。
SAM2ACT+は、メモリベンチで競争力のあるパフォーマンスを達成し、既存のアプローチを大幅に上回り、メモリ対応ロボットシステムの境界を押し広げます。
プロジェクトページ:https://sam2act.github.io/

要約(オリジナル)

Robotic manipulation systems operating in diverse, dynamic environments must exhibit three critical abilities: multitask interaction, generalization to unseen scenarios, and spatial memory. While significant progress has been made in robotic manipulation, existing approaches often fall short in generalization to complex environmental variations and addressing memory-dependent tasks. To bridge this gap, we introduce SAM2Act, a multi-view robotic transformer-based policy that leverages multi-resolution upsampling with visual representations from large-scale foundation model. SAM2Act achieves a state-of-the-art average success rate of 86.8% across 18 tasks in the RLBench benchmark, and demonstrates robust generalization on The Colosseum benchmark, with only a 4.3% performance gap under diverse environmental perturbations. Building on this foundation, we propose SAM2Act+, a memory-based architecture inspired by SAM2, which incorporates a memory bank, an encoder, and an attention mechanism to enhance spatial memory. To address the need for evaluating memory-dependent tasks, we introduce MemoryBench, a novel benchmark designed to assess spatial memory and action recall in robotic manipulation. SAM2Act+ achieves competitive performance on MemoryBench, significantly outperforming existing approaches and pushing the boundaries of memory-enabled robotic systems. Project page: https://sam2act.github.io/

arxiv情報

著者 Haoquan Fang,Markus Grotz,Wilbert Pumacay,Yi Ru Wang,Dieter Fox,Ranjay Krishna,Jiafei Duan
発行日 2025-02-11 08:33:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation はコメントを受け付けていません

Autonomous Driving using Spiking Neural Networks on Dynamic Vision Sensor Data: A Case Study of Traffic Light Change Detection

要約

自律運転は、学界と産業の両方から幅広い注目を集めてきた挑戦的な作業です。
畳み込みニューラルネットワークを使用した現在のソリューションには、大量の計算リソースが必要であり、高電力消費につながります。
スパイクニューラルネットワーク(SNN)は、情報を処理して決定を下すための代替計算モデルを提供します。
この生物学的にもっともらしいモデルには、低潜伏期とエネルギー効率の利点があります。
自律運転にSNNSを使用した最近の作業は、主に単純化されたシミュレーション環境にあるレーンのような単純なタスクに焦点を当てています。
このペーパーでは、Carla Simulatorの写真と現実的な運転シーンに関するSNNSを研究しています。これは、実際の車両でSNNを使用するための重要なステップです。
メソッドの有効性と一般化可能性が調査されます。

要約(オリジナル)

Autonomous driving is a challenging task that has gained broad attention from both academia and industry. Current solutions using convolutional neural networks require large amounts of computational resources, leading to high power consumption. Spiking neural networks (SNNs) provide an alternative computational model to process information and make decisions. This biologically plausible model has the advantage of low latency and energy efficiency. Recent work using SNNs for autonomous driving mostly focused on simple tasks like lane keeping in simplified simulation environments. This paper studies SNNs on photo-realistic driving scenes in the CARLA simulator, which is an important step toward using SNNs on real vehicles. The efficacy and generalizability of the method will be investigated.

arxiv情報

著者 Xuelei Chen,Sotirios Spanogianopoulos
発行日 2025-02-11 08:38:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE, cs.RO, eess.IV | Autonomous Driving using Spiking Neural Networks on Dynamic Vision Sensor Data: A Case Study of Traffic Light Change Detection はコメントを受け付けていません