Beyond Omakase: Designing Shared Control for Navigation Robots with Blind People

要約

自律的なナビゲーションロボットは、視覚障害者の独立性を高めることができますが、多くの場合、日本の「Omakase」アプローチと呼ばれるものに続いて、ロボットに決定が残されます。
この研究では、盲目の参加者を対象とした2つの研究に基づいて、ソーシャルロボットナビゲーションのユーザー制御を強化する方法を調査します。
構造化されたインタビュー(n = 14)を含む最初の研究では、混雑したスペースが重要な社会的課題を持つ重要な領域として特定されました。
2番目の研究(n = 13)は、これらの環境で自律的なロボットを使用したナビゲーションタスクを調査し、さまざまな自律モードにわたって設計戦略を特定しました。
参加者は、「ボス」モードと呼ばれるアクティブな役割を好みました。そこではクラウドインタラクションを管理し、「モニター」モードは環境の評価、動きの交渉、ロボットとの対話を支援しました。
これらの調査結果は、盲目ユーザーにとって共有コントロールとユーザーの関与の重要性を強調し、将来のソーシャルナビゲーションロボットを設計するための貴重な洞察を提供します。

要約(オリジナル)

Autonomous navigation robots can increase the independence of blind people but often limit user control, following what is called in Japanese an ‘omakase’ approach where decisions are left to the robot. This research investigates ways to enhance user control in social robot navigation, based on two studies conducted with blind participants. The first study, involving structured interviews (N=14), identified crowded spaces as key areas with significant social challenges. The second study (N=13) explored navigation tasks with an autonomous robot in these environments and identified design strategies across different modes of autonomy. Participants preferred an active role, termed the ‘boss’ mode, where they managed crowd interactions, while the ‘monitor’ mode helped them assess the environment, negotiate movements, and interact with the robot. These findings highlight the importance of shared control and user involvement for blind users, offering valuable insights for designing future social navigation robots.

arxiv情報

著者 Rie Kamikubo,Seita Kayukawa,Yuka Kaniwa,Allan Wang,Hernisa Kacorri,Hironobu Takagi,Chieko Asakawa
発行日 2025-03-31 05:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Beyond Omakase: Designing Shared Control for Navigation Robots with Blind People はコメントを受け付けていません

ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

要約

人間の手は相互作用する上で中心的な役割を果たし、器用なロボット操作の増加する研究を動機づけます。
データ駆動型の具体化されたAIアルゴリズムは、従来の強化学習または現実世界のテレオ操作で取得するのが難しい、正確で大規模な人間のような操作シーケンスを必要とします。
これに対処するために、シミュレーションで人間の両手スキルを器用なロボットハンドに効率的に転送するための新しい2段階の方法であるManiptransを紹介します。
マニプトランは、最初に手の動きを模倣するためのジェネラリストの軌跡の模倣者を事前に操作し、次に相互作用の制約の下で特定の残差モジュールを微調整し、複雑な双方向タスクの効率的な学習と正確な実行を可能にします。
実験は、マニプトランが成功率、忠実度、効率の最先端の方法を上回ることを示しています。
マニプトランを活用して、複数のハンドオブジェクトデータセットをロボットハンドに転送し、ペンキャッピングやボトルの外弾などの以前の未開拓のタスクを備えた大規模なデータセットであるDexManipNetを作成します。
Dexmanipnetは、ロボット操作の3.3Kエピソードで構成されており、簡単に拡張でき、巧妙な手のさらなるポリシートレーニングを促進し、現実世界の展開を可能にします。

要約(オリジナル)

Human hands play a central role in interacting, motivating increasing research in dexterous robotic manipulation. Data-driven embodied AI algorithms demand precise, large-scale, human-like manipulation sequences, which are challenging to obtain with conventional reinforcement learning or real-world teleoperation. To address this, we introduce ManipTrans, a novel two-stage method for efficiently transferring human bimanual skills to dexterous robotic hands in simulation. ManipTrans first pre-trains a generalist trajectory imitator to mimic hand motion, then fine-tunes a specific residual module under interaction constraints, enabling efficient learning and accurate execution of complex bimanual tasks. Experiments show that ManipTrans surpasses state-of-the-art methods in success rate, fidelity, and efficiency. Leveraging ManipTrans, we transfer multiple hand-object datasets to robotic hands, creating DexManipNet, a large-scale dataset featuring previously unexplored tasks like pen capping and bottle unscrewing. DexManipNet comprises 3.3K episodes of robotic manipulation and is easily extensible, facilitating further policy training for dexterous hands and enabling real-world deployments.

arxiv情報

著者 Kailin Li,Puhao Li,Tengyu Liu,Yuyang Li,Siyuan Huang
発行日 2025-03-27 17:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning はコメントを受け付けていません

Multimodal Object Detection using Depth and Image Data for Manufacturing Parts

要約

製造には、多様な種類の製造部品とコンポーネントの正確なピッキングと取り扱いのための信頼できるオブジェクト検出方法が必要です。
従来のオブジェクト検出方法は、カメラからの2D画像のみまたはLIDARSまたは同様の3Dセンサーからの3Dデータのみを使用します。
ただし、これらのセンサーにはそれぞれ弱点と制限があります。
カメラには深さの知覚がなく、3Dセンサーには通常、色情報が含まれていません。
これらの弱点は、産業製造システムの信頼性と堅牢性を損なう可能性があります。
これらの課題に対処するために、この作業は、赤緑色の青(RGB)カメラと3Dポイントクラウドセンサーを組み合わせたマルチセンサーシステムを提案しています。
2つのセンサーは、2つのハードウェアデバイスからキャプチャされたマルチモーダルデータの正確なアライメントのために校正されています。
RGBと深度データの両方を処理するために、新しいマルチモーダルオブジェクト検出方法が開発されています。
このオブジェクト検出器は、もともとカメラ画像のみを処理するように設計された高速のR-CNNベースラインに基づいています。
結果は、マルチモーダルモデルが、確立されたオブジェクト検出メトリックの深さのみおよびRGBのみのベースラインを大幅に上回ることを示しています。
より具体的には、マルチモーダルモデルはMAPを13%改善し、RGBのみのベースラインと比較して平均精度を11.8%上昇させます。
深さのみのベースラインと比較して、MAPを78%改善し、平均精度を57%上昇させます。
したがって、この方法は、スマートな製造アプリケーションにサービスを提供するより信頼性が高く堅牢なオブジェクト検出を促進します。

要約(オリジナル)

Manufacturing requires reliable object detection methods for precise picking and handling of diverse types of manufacturing parts and components. Traditional object detection methods utilize either only 2D images from cameras or 3D data from lidars or similar 3D sensors. However, each of these sensors have weaknesses and limitations. Cameras do not have depth perception and 3D sensors typically do not carry color information. These weaknesses can undermine the reliability and robustness of industrial manufacturing systems. To address these challenges, this work proposes a multi-sensor system combining an red-green-blue (RGB) camera and a 3D point cloud sensor. The two sensors are calibrated for precise alignment of the multimodal data captured from the two hardware devices. A novel multimodal object detection method is developed to process both RGB and depth data. This object detector is based on the Faster R-CNN baseline that was originally designed to process only camera images. The results show that the multimodal model significantly outperforms the depth-only and RGB-only baselines on established object detection metrics. More specifically, the multimodal model improves mAP by 13% and raises Mean Precision by 11.8% in comparison to the RGB-only baseline. Compared to the depth-only baseline, it improves mAP by 78% and raises Mean Precision by 57%. Hence, this method facilitates more reliable and robust object detection in service to smart manufacturing applications.

arxiv情報

著者 Nazanin Mahjourian,Vinh Nguyen
発行日 2025-03-27 19:10:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Multimodal Object Detection using Depth and Image Data for Manufacturing Parts はコメントを受け付けていません

Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback

要約

言語条件付きのロボット操作の最近の進歩により、ロボットが人間のコマンドからタスクを実行できるようにするために、模倣と強化学習を活用しました。
ただし、これらの方法は、コンピュータービジョンなどのデータが豊富なドメインとは異なり、限られた一般化、適応性、および大規模な専門データセットの欠如に悩まされることがよくあります。
これらのギャップに対処するために、リアルタイムのタスク計画と実行のために大規模な言語モデル(LLMS)を活用して、言語条件付きの長老ロボット操作のデータに依存しないフレームワークであるDahliaを紹介します。
Dahliaはデュアルトンネルアーキテクチャを採用しています。そこでは、LLMを搭載したプランナーが共同プランナーと協力してタスクを分解し、実行可能プランを生成し、レポーターLLMが閉ループフィードバックを提供し、適応的な再計画を可能にし、潜在的な障害からのタスクの回復を確保します。
さらに、Dahliaは、効率的なアクション実行のために、タスクの推論と時間的抽象化にチェーンオブ考え(COT)を統合し、トレーサビリティと堅牢性を高めます。
私たちのフレームワークは、多様な長老タスク全体で最先端のパフォーマンスを示し、シミュレートされたシナリオと現実世界の両方のシナリオで強力な一般化を達成しています。
ビデオとコードはhttps://ghiara.github.io/dahlia/で入手できます。

要約(オリジナル)

Recent advances in language-conditioned robotic manipulation have leveraged imitation and reinforcement learning to enable robots to execute tasks from human commands. However, these methods often suffer from limited generalization, adaptability, and the lack of large-scale specialized datasets, unlike data-rich domains such as computer vision, making long-horizon task execution challenging. To address these gaps, we introduce DAHLIA, a data-agnostic framework for language-conditioned long-horizon robotic manipulation, leveraging large language models (LLMs) for real-time task planning and execution. DAHLIA employs a dual-tunnel architecture, where an LLM-powered planner collaborates with co-planners to decompose tasks and generate executable plans, while a reporter LLM provides closed-loop feedback, enabling adaptive re-planning and ensuring task recovery from potential failures. Moreover, DAHLIA integrates chain-of-thought (CoT) in task reasoning and temporal abstraction for efficient action execution, enhancing traceability and robustness. Our framework demonstrates state-of-the-art performance across diverse long-horizon tasks, achieving strong generalization in both simulated and real-world scenarios. Videos and code are available at https://ghiara.github.io/DAHLIA/.

arxiv情報

著者 Yuan Meng,Xiangtong Yao,Haihui Ye,Yirui Zhou,Shengqiang Zhang,Zhenshan Bing,Alois Knoll
発行日 2025-03-27 20:32:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback はコメントを受け付けていません

Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning

要約

補強学習(RL)メソッドは通常、新しいタスクをゼロから学習し、学習プロセスを加速する可能性のある事前知識を無視することがよくあります。
いくつかの方法は以前に学習したスキルを組み込んでいますが、通常、スキルプライアーを定義するために、単一のガウス分布などの固定構造に依存しています。
この厳格な仮定は、特に複雑で長期のタスクで、スキルの多様性と柔軟性を制限する可能性があります。
この作業では、潜在的なプリミティブスキルモーションをモデル化する方法を紹介します。
ベイジアンノンパラメトリックモデル、特に誕生と合併により強化されたディリクレプロセスの混合物を利用して、スキルの多様な性質を効果的に捉えるスキルを事前に訓練します。
さらに、学習したスキルは、以前のスペース内で明示的に追跡可能であり、解釈可能性と制御を向上させます。
この柔軟なスキルをRLフレームワークに統合することにより、私たちのアプローチは、長老操作タスクの既存の方法を上回り、複雑な環境でより効率的なスキル転送とタスクの成功を可能にします。
私たちの調査結果は、スキル前のより豊かでノンパラメトリックな表現が、挑戦的なロボットタスクの学習と実行の両方を大幅に改善することを示しています。
すべてのデータ、コード、ビデオはhttps://ghiara.github.io/helios/で入手できます。

要約(オリジナル)

Reinforcement learning (RL) methods typically learn new tasks from scratch, often disregarding prior knowledge that could accelerate the learning process. While some methods incorporate previously learned skills, they usually rely on a fixed structure, such as a single Gaussian distribution, to define skill priors. This rigid assumption can restrict the diversity and flexibility of skills, particularly in complex, long-horizon tasks. In this work, we introduce a method that models potential primitive skill motions as having non-parametric properties with an unknown number of underlying features. We utilize a Bayesian non-parametric model, specifically Dirichlet Process Mixtures, enhanced with birth and merge heuristics, to pre-train a skill prior that effectively captures the diverse nature of skills. Additionally, the learned skills are explicitly trackable within the prior space, enhancing interpretability and control. By integrating this flexible skill prior into an RL framework, our approach surpasses existing methods in long-horizon manipulation tasks, enabling more efficient skill transfer and task success in complex environments. Our findings show that a richer, non-parametric representation of skill priors significantly improves both the learning and execution of challenging robotic tasks. All data, code, and videos are available at https://ghiara.github.io/HELIOS/.

arxiv情報

著者 Yuan Meng,Xiangtong Yao,Kejia Chen,Yansong Wu,Liding Zhang,Zhenshan Bing,Alois Knoll
発行日 2025-03-27 20:43:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning はコメントを受け付けていません

Bresa: Bio-inspired Reflexive Safe Reinforcement Learning for Contact-Rich Robotic Tasks

要約

強化学習(RL)ベースのロボットシステムの安全性を確保することは、特に構造化されていない環境内の接触豊富なタスクでは、重大な課題です。
最先端の安全なRLアプローチは、安全な探査または高レベルの回復メカニズムを通じてリスクを軽減しますが、潜在的な危険に対する反射的な反応が非常に重要である低レベルの実行安全性を見落としていることがよくあります。
同様に、可変インピーダンス制御(VIC)は、ロボットの機械的応答を調整することにより安全性を高めますが、タスク全体の剛性や減衰などのパラメーターを適応させる体系的な方法がありません。
この論文では、生物学的反射に触発されたバイオ風の反射階層セーフRLメソッドであるブレサを提案します。
私たちの方法は、アクションリスクを評価し、タスクソルバーよりも高い頻度で動作する安全批評家ネットワークを組み込むために、安全学習からのタスク学習を切り離します。
既存の回復ベースの方法とは異なり、当社の安全批評家は低レベルの制御層で機能し、安全でない状態が発生したときにリアルタイムの介入を可能にします。
より低い頻度で実行されるタスク解決RLポリシーは、高レベルの計画(意思決定)に焦点を当てていますが、安全批評家は瞬間的な安全補正を保証します。
連絡先が豊富なロボットタスクを含む複数のタスクでBRESAを検証し、安全性を高めるための再帰的な能力と、予期せぬ動的環境での適応性を実証します。
私たちの結果は、BRESAがベースラインを上回り、高レベルの計画と低レベルの実行の間のギャップを埋める堅牢で反射的な安全メカニズムを提供することを示しています。
実際の実験と補足資料は、プロジェクトWebサイトhttps://jack-sherman01.github.io/bresaで入手できます。

要約(オリジナル)

Ensuring safety in reinforcement learning (RL)-based robotic systems is a critical challenge, especially in contact-rich tasks within unstructured environments. While the state-of-the-art safe RL approaches mitigate risks through safe exploration or high-level recovery mechanisms, they often overlook low-level execution safety, where reflexive responses to potential hazards are crucial. Similarly, variable impedance control (VIC) enhances safety by adjusting the robot’s mechanical response, yet lacks a systematic way to adapt parameters, such as stiffness and damping throughout the task. In this paper, we propose Bresa, a Bio-inspired Reflexive Hierarchical Safe RL method inspired by biological reflexes. Our method decouples task learning from safety learning, incorporating a safety critic network that evaluates action risks and operates at a higher frequency than the task solver. Unlike existing recovery-based methods, our safety critic functions at a low-level control layer, allowing real-time intervention when unsafe conditions arise. The task-solving RL policy, running at a lower frequency, focuses on high-level planning (decision-making), while the safety critic ensures instantaneous safety corrections. We validate Bresa on multiple tasks including a contact-rich robotic task, demonstrating its reflexive ability to enhance safety, and adaptability in unforeseen dynamic environments. Our results show that Bresa outperforms the baseline, providing a robust and reflexive safety mechanism that bridges the gap between high-level planning and low-level execution. Real-world experiments and supplementary material are available at project website https://jack-sherman01.github.io/Bresa.

arxiv情報

著者 Heng Zhang,Gokhan Solak,Arash Ajoudani
発行日 2025-03-27 21:11:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Bresa: Bio-inspired Reflexive Safe Reinforcement Learning for Contact-Rich Robotic Tasks はコメントを受け付けていません

Beyond Omakase: Designing Shared Control for Navigation Robots with Blind People

要約

自律的なナビゲーションロボットは、視覚障害者の独立性を高めることができますが、多くの場合、日本の「Omakase」アプローチと呼ばれるものに続いて、ロボットに決定が残されます。
この研究では、盲目の参加者を対象とした2つの研究に基づいて、ソーシャルロボットナビゲーションのユーザー制御を強化する方法を調査します。
構造化されたインタビュー(n = 14)を含む最初の研究では、混雑したスペースが重要な社会的課題を持つ重要な領域として特定されました。
2番目の研究(n = 13)は、これらの環境で自律的なロボットを使用したナビゲーションタスクを調査し、さまざまな自律モードにわたって設計戦略を特定しました。
参加者は、「ボス」モードと呼ばれるアクティブな役割を好みました。そこではクラウドインタラクションを管理し、「モニター」モードは環境の評価、動きの交渉、ロボットとの対話を支援しました。
これらの調査結果は、盲目ユーザーにとって共有コントロールとユーザーの関与の重要性を強調し、将来のソーシャルナビゲーションロボットを設計するための貴重な洞察を提供します。

要約(オリジナル)

Autonomous navigation robots can increase the independence of blind people but often limit user control, following what is called in Japanese an ‘omakase’ approach where decisions are left to the robot. This research investigates ways to enhance user control in social robot navigation, based on two studies conducted with blind participants. The first study, involving structured interviews (N=14), identified crowded spaces as key areas with significant social challenges. The second study (N=13) explored navigation tasks with an autonomous robot in these environments and identified design strategies across different modes of autonomy. Participants preferred an active role, termed the ‘boss’ mode, where they managed crowd interactions, while the ‘monitor’ mode helped them assess the environment, negotiate movements, and interact with the robot. These findings highlight the importance of shared control and user involvement for blind users, offering valuable insights for designing future social navigation robots.

arxiv情報

著者 Rie Kamikubo,Seita Kayukawa,Yuka Kaniwa,Allan Wang,Hernisa Kacorri,Hironobu Takagi,Chieko Asakawa
発行日 2025-03-27 21:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Beyond Omakase: Designing Shared Control for Navigation Robots with Blind People はコメントを受け付けていません

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

要約

将来のロボットは、さまざまな家庭用タスクを実行できる多目的システムとして想定されています。
大きな疑問が残っています。物理的なロボット学習を最小限に抑えながら、具体化のギャップをどのように埋めることができますか。
内部の人間のビデオから学ぶことは、膨大な量の関連データがすでにインターネットに存在するため、ロボット操作タスクの有望なソリューションを提供すると主張しています。
この作業では、野生の単眼RGBのみの人間ビデオから学習した3Dアフォーダンスを使用して、ゼロショットロボット操作を可能にするフレームワークであるVidbotを提示します。
Vidbotはパイプラインを活用して、それらから明示的な表現、すなわちビデオからの3Dハンド軌跡を抽出し、深さの基礎モデルと構造から運動技術を組み合わせて、時間的に一貫したメトリックスケール3Dアフォーダンス表現を再構築します。
最初にピクセル空間から粗いアクションを識別し、次に拡散モデルで粗い相互作用の軌跡を生成し、粗いアクションを条件付け、コンテキスト対応の相互作用計画のテスト時間制約によって導かれ、新しいシーンと態度の実質的な一般化を可能にします。
広範な実験は、VIDBOTの有効性を示しています。これは、ゼロショット設定で13の操作タスクにわたってカウンターパートを大幅に上回り、実際の環境でロボットシステム全体にシームレスに展開できます。
Vidbotは、毎日の人間のビデオを活用して、ロボット学習をよりスケーラブルにするための道を開きます。

要約(オリジナル)

Future robots are envisioned as versatile systems capable of performing a variety of household tasks. The big question remains, how can we bridge the embodiment gap while minimizing physical robot learning, which fundamentally does not scale well. We argue that learning from in-the-wild human videos offers a promising solution for robotic manipulation tasks, as vast amounts of relevant data already exist on the internet. In this work, we present VidBot, a framework enabling zero-shot robotic manipulation using learned 3D affordance from in-the-wild monocular RGB-only human videos. VidBot leverages a pipeline to extract explicit representations from them, namely 3D hand trajectories from videos, combining a depth foundation model with structure-from-motion techniques to reconstruct temporally consistent, metric-scale 3D affordance representations agnostic to embodiments. We introduce a coarse-to-fine affordance learning model that first identifies coarse actions from the pixel space and then generates fine-grained interaction trajectories with a diffusion model, conditioned on coarse actions and guided by test-time constraints for context-aware interaction planning, enabling substantial generalization to novel scenes and embodiments. Extensive experiments demonstrate the efficacy of VidBot, which significantly outperforms counterparts across 13 manipulation tasks in zero-shot settings and can be seamlessly deployed across robot systems in real-world environments. VidBot paves the way for leveraging everyday human videos to make robot learning more scalable.

arxiv情報

著者 Hanzhi Chen,Boyang Sun,Anran Zhang,Marc Pollefeys,Stefan Leutenegger
発行日 2025-03-27 21:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation はコメントを受け付けていません

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

要約

Vision-Language-actionモデル(VLA)は、一般化可能な感覚運動制御を学習するための、前提条件の視覚言語モデルと多様なロボットデモンストレーションを活用する可能性を示しています。
このパラダイムは、ロボットソースと非ロボットソースの両方からの大規模なデータを効果的に利用していますが、現在のVLAは主に直接入力であるアウトプットマッピングに焦点を当てており、複雑な操作タスクに重要な中間推論ステップがありません。
その結果、既存のVLAには、時間的計画または推論能力がありません。
このペーパーでは、これらの目標を達成するために短いアクションシーケンスを生成する前に視覚目標として将来の画像フレームを自動的に予測することにより、視覚的な視覚チェーン(COT)推論を視覚言語アクションモデル(VLA)に組み込む方法を紹介します。
視覚的およびアクショントークンを理解して生成できる最先端の7B VLAであるCOT-VLAを紹介します。
実験結果は、COT-VLAが強力なパフォーマンスを達成し、現実世界の操作タスクで最先端のVLAモデルを17%、シミュレーションベンチマークで6%上回ることを示しています。
プロジェクトWebサイト:https://cot-vla.github.io/

要約(オリジナル)

Vision-language-action models (VLAs) have shown potential in leveraging pretrained vision-language models and diverse robot demonstrations for learning generalizable sensorimotor control. While this paradigm effectively utilizes large-scale data from both robotic and non-robotic sources, current VLAs primarily focus on direct input–output mappings, lacking the intermediate reasoning steps crucial for complex manipulation tasks. As a result, existing VLAs lack temporal planning or reasoning capabilities. In this paper, we introduce a method that incorporates explicit visual chain-of-thought (CoT) reasoning into vision-language-action models (VLAs) by predicting future image frames autoregressively as visual goals before generating a short action sequence to achieve these goals. We introduce CoT-VLA, a state-of-the-art 7B VLA that can understand and generate visual and action tokens. Our experimental results demonstrate that CoT-VLA achieves strong performance, outperforming the state-of-the-art VLA model by 17% in real-world manipulation tasks and 6% in simulation benchmarks. Project website: https://cot-vla.github.io/

arxiv情報

著者 Qingqing Zhao,Yao Lu,Moo Jin Kim,Zipeng Fu,Zhuoyang Zhang,Yecheng Wu,Zhaoshuo Li,Qianli Ma,Song Han,Chelsea Finn,Ankur Handa,Ming-Yu Liu,Donglai Xiang,Gordon Wetzstein,Tsung-Yi Lin
発行日 2025-03-27 22:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models はコメントを受け付けていません

Bayesian Inferential Motion Planning Using Heavy-Tailed Distributions

要約

ロボットは、さまざまなタスクを実行しながら安全かつ効率的にナビゲートするためのモーション計画に依存しています。
この論文では、ベイジアン推論を通じてモーション計画を調査します。ここでは、計画の目標と制約に基づいてモーション計画が推測されます。
ただし、既存のベイジアンモーション計画方法は、高品質の計画が存在する可能性のある計画空間の低確率領域を探求するのに苦労することがよくあります。
この制限に対処するために、モーションプランの確率的推論検索を強化するために、重度のテール分布、具体的には学生の$ t $分布を使用することを提案します。
学生の$ T $分布をモンテカルロサンプリングと統合する新しいシングルパススムージングアプローチを開発します。
このアプローチの特別なケースは、アンサンブルカルマンスムージングです。これは、短尾のガウス分布に依存します。
自律的な車両モーション計画のシミュレーションを通じて提案されたアプローチを検証し、アンサンブルカルマンスムージングと比較して、計画、サンプリング効率、および制約満足度の優れたパフォーマンスを実証します。
モーションプランニングに焦点を当てている間、この作業は、ロボット工学における確率的意思決定を強化する上で、重尾の分布のより広範な可能性を示しています。

要約(オリジナル)

Robots rely on motion planning to navigate safely and efficiently while performing various tasks. In this paper, we investigate motion planning through Bayesian inference, where motion plans are inferred based on planning objectives and constraints. However, existing Bayesian motion planning methods often struggle to explore low-probability regions of the planning space, where high-quality plans may reside. To address this limitation, we propose the use of heavy-tailed distributions — specifically, Student’s-$t$ distributions — to enhance probabilistic inferential search for motion plans. We develop a novel sequential single-pass smoothing approach that integrates Student’s-$t$ distribution with Monte Carlo sampling. A special case of this approach is ensemble Kalman smoothing, which depends on short-tailed Gaussian distributions. We validate the proposed approach through simulations in autonomous vehicle motion planning, demonstrating its superior performance in planning, sampling efficiency, and constraint satisfaction compared to ensemble Kalman smoothing. While focused on motion planning, this work points to the broader potential of heavy-tailed distributions in enhancing probabilistic decision-making in robotics.

arxiv情報

著者 Ali Vaziri,Iman Askari,Huazhen Fang
発行日 2025-03-27 22:54:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC, math.PR | Bayesian Inferential Motion Planning Using Heavy-Tailed Distributions はコメントを受け付けていません