Hypothesis on the Functional Advantages of the Selection-Broadcast Cycle Structure: Global Workspace Theory and Dealing with a Real-Time World

要約

この論文では、人間の意識に触発されたグローバルワークスペース理論(GWT)によって提案された選択ブロードキャストサイクル構造の機能的利点について説明します。
以前の研究では、選択と放送のプロセスを独立して検討することがよくありましたが、この研究では、循環構造の組み合わせとリアルタイム認知システムの利点が強調されています。
具体的には、この論文は、動的思考の適応、経験ベースの適応、および即時のリアルタイム適応という3つの主要な利点を特定しています。
この作業は、監視されていない動的な環境での洗練された意思決定と適応性のあるパフォーマンスに適した認知アーキテクチャとしてのGWTの可能性を強調しています。
複雑で実世界のタスクを管理できる、堅牢で汎用的なAIおよびロボットシステムの開発と実装のための新しい方向性を示唆しています。

要約(オリジナル)

This paper discusses the functional advantages of the Selection-Broadcast Cycle structure proposed by Global Workspace Theory (GWT), inspired by human consciousness, particularly focusing on its applicability to artificial intelligence and robotics in dynamic, real-time scenarios. While previous studies often examined the Selection and Broadcast processes independently, this research emphasizes their combined cyclic structure and the resulting benefits for real-time cognitive systems. Specifically, the paper identifies three primary benefits: Dynamic Thinking Adaptation, Experience-Based Adaptation, and Immediate Real-Time Adaptation. This work highlights GWT’s potential as a cognitive architecture suitable for sophisticated decision-making and adaptive performance in unsupervised, dynamic environments. It suggests new directions for the development and implementation of robust, general-purpose AI and robotics systems capable of managing complex, real-world tasks.

arxiv情報

著者 Junya Nakanishi,Jun Baba,Yuichiro Yoshikawa,Hiroko Kamide,Hiroshi Ishiguro
発行日 2025-05-20 06:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Hypothesis on the Functional Advantages of the Selection-Broadcast Cycle Structure: Global Workspace Theory and Dealing with a Real-Time World はコメントを受け付けていません

Adaptive Visuo-Tactile Fusion with Predictive Force Attention for Dexterous Manipulation

要約

ロボットが多様なタスク全体に一般化するには、多感覚データを効果的に利用することが重要です。
しかし、これらのモダリティの不均一な性質により、融合は困難になります。
既存の方法は、包括的に融合した機能を取得するための戦略を提案しますが、多くの場合、各モダリティは異なる操作段階で異なるレベルの注意を必要とするという事実を無視します。
これに対処するために、人間のラベル付けなしで視覚的および触覚的な特徴の重みを適応的に調整する力​​誘導注意融合モジュールを提案します。
また、触覚のモダリティを強化し、データの不均衡を改善し、適切な調整を促進するために、自己監督の将来の力予測補助タスクを導入します。
私たちの方法では、実際の実験で3つのきめの細かい一時的なタスクで93%の平均成功率を達成します。
さらなる分析により、当社のポリシーは、さまざまな操作段階で各モダリティに適切に注意を合わせて調整することが示されています。
ビデオはhttps://adaptac-dex.github.io/で見ることができます。

要約(オリジナル)

Effectively utilizing multi-sensory data is important for robots to generalize across diverse tasks. However, the heterogeneous nature of these modalities makes fusion challenging. Existing methods propose strategies to obtain comprehensively fused features but often ignore the fact that each modality requires different levels of attention at different manipulation stages. To address this, we propose a force-guided attention fusion module that adaptively adjusts the weights of visual and tactile features without human labeling. We also introduce a self-supervised future force prediction auxiliary task to reinforce the tactile modality, improve data imbalance, and encourage proper adjustment. Our method achieves an average success rate of 93% across three fine-grained, contactrich tasks in real-world experiments. Further analysis shows that our policy appropriately adjusts attention to each modality at different manipulation stages. The videos can be viewed at https://adaptac-dex.github.io/.

arxiv情報

著者 Jinzhou Li,Tianhao Wu,Jiyao Zhang,Zeyuan Chen,Haotian Jin,Mingdong Wu,Yujun Shen,Yaodong Yang,Hao Dong
発行日 2025-05-20 06:29:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Adaptive Visuo-Tactile Fusion with Predictive Force Attention for Dexterous Manipulation はコメントを受け付けていません

AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory

要約

Vision-Language-action(VLA)モデルは、視覚、言語、および固有受容のモダリティを共同で活用してアクション軌道を生成することにより、一般主義ロボットポリシーとして有望であることを示しています。
最近のベンチマークでは、国内のタスクにおけるVLAの高度な研究がありますが、専門的な科学志向のドメインは依存していないままです。
生物学の実験室環境でロボット自動化を評価するために設計されたシミュレーションフレームワークとベンチマークであるAutobioを紹介します。これは、構造化されたプロトコルと厳しい精度とマルチモーダルの相互作用を組み合わせたアプリケーションドメインです。
Autobioは、現実世界の実験室機器、実験室ワークフローに遍在するメカニズムのための特殊な物理プラグイン、および物理的に基づくレンダリングを通じて動的機器インターフェイスと透過材料をサポートするレンダリングスタックをデジタル化するためのパイプラインを通じて、既存のシミュレーション機能を拡張します。
私たちのベンチマークは、3つの難易度レベルにまたがる生物学的に接地されたタスクで構成され、実験プロトコルにおける言語誘導ロボット操作の標準化された評価を可能にします。
デモンストレーションの生成とVLAモデルとのシームレスな統合のためのインフラストラクチャを提供します。
2つのSOTA VLAモデルを使用したベースライン評価は、科学的ワークフローでの正確な操作、視覚的推論、および指導における重要なギャップを明らかにしています。
Autobioをリリースすることにより、複雑な、高精度、およびマルチモーダルの専門環境のためのジェネラリストロボットシステムに関する研究を触媒することを目指しています。
シミュレーターとベンチマークは、再現可能な研究を促進するために公開されています。

要約(オリジナル)

Vision-language-action (VLA) models have shown promise as generalist robotic policies by jointly leveraging visual, linguistic, and proprioceptive modalities to generate action trajectories. While recent benchmarks have advanced VLA research in domestic tasks, professional science-oriented domains remain underexplored. We introduce AutoBio, a simulation framework and benchmark designed to evaluate robotic automation in biology laboratory environments–an application domain that combines structured protocols with demanding precision and multimodal interaction. AutoBio extends existing simulation capabilities through a pipeline for digitizing real-world laboratory instruments, specialized physics plugins for mechanisms ubiquitous in laboratory workflows, and a rendering stack that support dynamic instrument interfaces and transparent materials through physically based rendering. Our benchmark comprises biologically grounded tasks spanning three difficulty levels, enabling standardized evaluation of language-guided robotic manipulation in experimental protocols. We provide infrastructure for demonstration generation and seamless integration with VLA models. Baseline evaluations with two SOTA VLA models reveal significant gaps in precision manipulation, visual reasoning, and instruction following in scientific workflows. By releasing AutoBio, we aim to catalyze research on generalist robotic systems for complex, high-precision, and multimodal professional environments. The simulator and benchmark are publicly available to facilitate reproducible research.

arxiv情報

著者 Zhiqian Lan,Yuxuan Jiang,Ruiqi Wang,Xuanbing Xie,Rongkui Zhang,Yicheng Zhu,Peihang Li,Tianshuo Yang,Tianxing Chen,Haoyu Gao,Xiaokang Yang,Xuelong Li,Hongyuan Zhang,Yao Mu,Ping Luo
発行日 2025-05-20 07:29:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory はコメントを受け付けていません

On-Demand Scenario Generation for Testing Automated Driving Systems

要約

自動化された運転システム(ADS)の安全性と信頼性は最重要であり、展開前に潜在的な障害を発見するために厳しいテスト方法論を必要とします。
従来のテストアプローチは、自然なシナリオサンプリングまたは安全性の高いシナリオ生成のいずれかを優先し、過度に単純化または非現実的な危険テストをもたらします。
実際には、自然シナリオの需要(例えば、実際の条件での広告の信頼性を評価する場合)、重要なシナリオ(例:重大な状況で安全性を評価するとき)、またはその間のどこか(例えば、文明ドライバーが少ない地域の広告をテストする場合)は、テストの客観的に応じて異なります。
この問題に対処するために、さまざまなリスクレベルで多様なシナリオを生成するオンデマンドシナリオ生成(OSG)フレームワークを提案します。
OSGの目標を達成することは、複雑な車両と環境の相互作用に起因する臨界性と自然性を定量化する複雑さと、さまざまなリスクレベルにわたってシナリオの多様性を維持する必要性のために、困難です。
OSGは、実際のトラフィックデータセットから学習し、リスク強度レギュレーターを使用してリスクレベルを定量的に制御します。
また、シナリオの多様性を確保するために、改善されたヒューリスティック検索方法を活用します。
さまざまなADSを使用して、CarlaシミュレーターのOSGを評価します。
さまざまなリスクレベルでシナリオを生成するOSGの能力を検証し、リスクレベル全体で事故タイプを比較することにより、その必要性を示します。
OSGの助けを借りて、さまざまなリスクレベルに基づいて、さまざまなADSのパフォーマンスを体系的かつ客観的に比較できるようになりました。

要約(オリジナル)

The safety and reliability of Automated Driving Systems (ADS) are paramount, necessitating rigorous testing methodologies to uncover potential failures before deployment. Traditional testing approaches often prioritize either natural scenario sampling or safety-critical scenario generation, resulting in overly simplistic or unrealistic hazardous tests. In practice, the demand for natural scenarios (e.g., when evaluating the ADS’s reliability in real-world conditions), critical scenarios (e.g., when evaluating safety in critical situations), or somewhere in between (e.g., when testing the ADS in regions with less civilized drivers) varies depending on the testing objectives. To address this issue, we propose the On-demand Scenario Generation (OSG) Framework, which generates diverse scenarios with varying risk levels. Achieving the goal of OSG is challenging due to the complexity of quantifying the criticalness and naturalness stemming from intricate vehicle-environment interactions, as well as the need to maintain scenario diversity across various risk levels. OSG learns from real-world traffic datasets and employs a Risk Intensity Regulator to quantitatively control the risk level. It also leverages an improved heuristic search method to ensure scenario diversity. We evaluate OSG on the Carla simulators using various ADSs. We verify OSG’s ability to generate scenarios with different risk levels and demonstrate its necessity by comparing accident types across risk levels. With the help of OSG, we are now able to systematically and objectively compare the performance of different ADSs based on different risk levels.

arxiv情報

著者 Songyang Yan,Xiaodong Zhang,Kunkun Hao,haojie xin,Yonggang Luo,Jucheng Yang,Ming Fan,Chao Yang,Jun Sun,Zijiang Yang
発行日 2025-05-20 07:55:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SE | On-Demand Scenario Generation for Testing Automated Driving Systems はコメントを受け付けていません

A Probabilistic Model for Skill Acquisition with Switching Latent Feedback Controllers

要約

多くの場合、操作タスクはサブタスクで構成され、それぞれが明確なスキルを表しています。
これらのスキルを習得することは、ロボットにとって不可欠です。ロボットは、自律性、効率、適応性、環境で作業する能力を向上させるためです。
デモンストレーションから学ぶことで、ロボットはゼロから始めることなく新しいスキルを迅速に獲得することができます。通常、デモンストレーションはタスクを達成するためのスキルをシーケンスすることができます。
デモンストレーションから学習するための動作クローニングアプローチは、一般的に混合密度ネットワーク出力ヘッドに依存して、ロボットアクションを予測します。
この作業では、まず、潜在的な状態で条件付けられたフィードバックコントローラー(またはスキル)のライブラリとして混合密度ネットワークを再解釈します。
これは、1層の線形ネットワークが古典的なフィードバックコントローラーと機能的に同等であり、ネットワークの重みがコントローラーのゲインに対応するという観察から生じます。
この洞察を使用して、これらの要素を組み合わせた確率的グラフィカルモデルを導き出し、スキル獲得プロセスを潜在空間でのセグメンテーションとして説明します。各スキルポリシーは、この潜在空間のフィードバック制御法則として機能します。
私たちのアプローチは、タスクの成功率だけでなく、人間のデモンストレーションで訓練されたときの観察騒音に対する堅牢性も大幅に改善します。
私たちの物理的なロボット実験は、誘導された堅牢性がロボットのモデルの展開を改善することをさらに示しています。

要約(オリジナル)

Manipulation tasks often consist of subtasks, each representing a distinct skill. Mastering these skills is essential for robots, as it enhances their autonomy, efficiency, adaptability, and ability to work in their environment. Learning from demonstrations allows robots to rapidly acquire new skills without starting from scratch, with demonstrations typically sequencing skills to achieve tasks. Behaviour cloning approaches to learning from demonstration commonly rely on mixture density network output heads to predict robot actions. In this work, we first reinterpret the mixture density network as a library of feedback controllers (or skills) conditioned on latent states. This arises from the observation that a one-layer linear network is functionally equivalent to a classical feedback controller, with network weights corresponding to controller gains. We use this insight to derive a probabilistic graphical model that combines these elements, describing the skill acquisition process as segmentation in a latent space, where each skill policy functions as a feedback control law in this latent space. Our approach significantly improves not only task success rate, but also robustness to observation noise when trained with human demonstrations. Our physical robot experiments further show that the induced robustness improves model deployment on robots.

arxiv情報

著者 Juyan Zhang,Dana Kulic,Michael Burke
発行日 2025-05-20 07:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Probabilistic Model for Skill Acquisition with Switching Latent Feedback Controllers はコメントを受け付けていません

Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation

要約

Vision-Language Navigation(VLN)は、自然言語の指示に従って複雑な現実世界環境でナビゲートできる具体化されたエージェントを開発するための重要なタスクです。
大規模な前提条件モデルによるVLNの最近の進歩により、従来のアプローチと比較して、一般化と指導の基礎が大幅に改善されました。
ただし、ナビゲーションにおける推論戦略の役割 – 行動中心の長期課題は、視覚的な質問に答えるなどの静的タスクで実証された推論(COT)の実証された成功にもかかわらず、露出していないものです。
このギャップに対処するために、VLNの推論戦略の最初の体系的な評価を実施します。これには、考えなし(直接アクション予測)、考え方(アクション前の理由)、考え方(アクション後の理由)を含みます。
驚くべきことに、私たちの調査結果は、推論時の推論の推論がナビゲーションの精度を低下させ、VLNに統合する課題を強調する推論時の推論崩壊の問題を明らかにしています。
この洞察に基づいて、オンライン予測では推論なしにアクションを直接推測しながら、COT監督を通じて構造化された推論パターンを内面化するためにモデルをトレーニングするフレームワークであるAux-Thinkを提案します。
このフレームワークをサポートするために、VLN用の最初の選択の注釈付きデータセットであるR2R-COT-320Kをリリースします。
広範な実験は、AUXを考えて、トレーニングの取り組みを大幅に削減し、同じデータスケールで最高のパフォーマンスを達成することを示しています。

要約(オリジナル)

Vision-Language Navigation (VLN) is a critical task for developing embodied agents that can follow natural language instructions to navigate in complex real-world environments. Recent advances in VLN by large pretrained models have significantly improved generalization and instruction grounding compared to traditional approaches. However, the role of reasoning strategies in navigation-an action-centric, long-horizon task-remains underexplored, despite Chain-of-Thought (CoT) reasoning’s demonstrated success in static tasks like visual question answering. To address this gap, we conduct the first systematic evaluation of reasoning strategies for VLN, including No-Think (direct action prediction), Pre-Think (reason before action), and Post-Think (reason after action). Surprisingly, our findings reveal the Inference-time Reasoning Collapse issue, where inference-time reasoning degrades navigation accuracy, highlighting the challenges of integrating reasoning into VLN. Based on this insight, we propose Aux-Think, a framework that trains models to internalize structured reasoning patterns through CoT supervision, while inferring action directly without reasoning in online prediction. To support this framework, we release R2R-CoT-320k, the first Chain-of-Thought annotated dataset for VLN. Extensive experiments show that Aux-Think reduces training effort greatly and achieves the best performance under the same data scale.

arxiv情報

著者 Shuo Wang,Yongcai Wang,Wanting Li,Xudong Cai,Yucheng Wang,Maiyue Chen,Kaihui Wang,Zhizhong Su,Deying Li,Zhaoxin Fan
発行日 2025-05-20 08:51:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation はコメントを受け付けていません

Unconventional Hexacopters via Evolution and Learning: Performance Gains and New Insights

要約

進化と学習は歴史的に相互に関連したトピックであり、彼らの相互作用は最近の関心の高まりを集めています。
この傾向の新たな新しい要因は、形態学的進化であり、ロボットなどの具体化されたAIシステム内の物理的形態の進化です。
この研究では、進化可能な形態と学習可能なコントローラーを備えたヘキサコプター型ドローンのシステムを調査し、2つの分野に貢献します。
航空ロボット工学の場合、進化と学習の組み合わせが、以前に考慮されていたよりも複雑ないくつかのタスクで、従来のヘキサコプターを大幅に上回る非​​伝統的なドローンを提供できることを実証します。
進化的コンピューティングの分野では、新しい分析を導入し、形態学的進化と学習の相互作用に新しい分析を実行し、これまでの正体不明の効果を明らかにします。
分析ツールはドメインに依存しており、進化と学習を統合する具体化されたAIシステムの固体基礎を構築するために方法論的な貢献をしています。

要約(オリジナル)

Evolution and learning have historically been interrelated topics, and their interplay is attracting increased interest lately. The emerging new factor in this trend is morphological evolution, the evolution of physical forms within embodied AI systems such as robots. In this study, we investigate a system of hexacopter-type drones with evolvable morphologies and learnable controllers and make contributions to two fields. For aerial robotics, we demonstrate that the combination of evolution and learning can deliver non-conventional drones that significantly outperform the traditional hexacopter on several tasks that are more complex than previously considered in the literature. For the field of Evolutionary Computing, we introduce novel metrics and perform new analyses into the interaction of morphological evolution and learning, uncovering hitherto unidentified effects. Our analysis tools are domain-agnostic, making a methodological contribution towards building solid foundations for embodied AI systems that integrate evolution and learning.

arxiv情報

著者 Jed Muff,Keiichi Ito,Elijah H. W. Ang,Karine Miras,A. E. Eiben
発行日 2025-05-20 09:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Unconventional Hexacopters via Evolution and Learning: Performance Gains and New Insights はコメントを受け付けていません

Task-oriented Robotic Manipulation with Vision Language Models

要約

ビジョン言語モデル(VLM)は、ロボットがオブジェクトとその周囲の視覚特性を理解して解釈し、このマルチモーダルの理解に基づいて操作を実行できるようにすることにより、ロボット操作において重要な役割を果たします。
空間的関係を正確に理解することは、非自明の課題のままですが、効果的なロボット操作には不可欠です。
この作業では、VLMSを構造化された空間推論パイプラインと統合して、高レベルのタスク指向の入力に基づいてオブジェクト操作を実行する新しいフレームワークを紹介します。
私たちのアプローチは、視覚的なシーンを空間的関係をコードするツリー構造表現への変換です。
その後、これらのツリーは大規模な言語モデル(LLM)によって処理され、これらのオブジェクトを特定の高レベルタスクのために編成する方法を決定する再構築された構成を推測します。
フレームワークをサポートするために、オブジェクト間の空間的関係を説明する手動で注釈付きのキャプションを含む新しいデータセットと、脆弱性、質量、材料、透明度などのオブジェクトレベルの属性アノテーションも提示します。
私たちの方法は、視覚環境のオブジェクト間の空間的関係の理解を改善するだけでなく、ロボットがこれらのオブジェクトとより効果的に相互作用できるようにすることを実証します。
その結果、このアプローチは、ロボット操作タスクの空間的推論を大幅に強化します。
私たちの知る限り、これは文学のこの種の最初の方法であり、ロボットが周囲のオブジェクトをより効率的に整理し、利用できるようにする新しいソリューションを提供します。

要約(オリジナル)

Vision Language Models (VLMs) play a crucial role in robotic manipulation by enabling robots to understand and interpret the visual properties of objects and their surroundings, allowing them to perform manipulation based on this multimodal understanding. Accurately understanding spatial relationships remains a non-trivial challenge, yet it is essential for effective robotic manipulation. In this work, we introduce a novel framework that integrates VLMs with a structured spatial reasoning pipeline to perform object manipulation based on high-level, task-oriented input. Our approach is the transformation of visual scenes into tree-structured representations that encode the spatial relations. These trees are subsequently processed by a Large Language Model (LLM) to infer restructured configurations that determine how these objects should be organised for a given high-level task. To support our framework, we also present a new dataset containing manually annotated captions that describe spatial relations among objects, along with object-level attribute annotations such as fragility, mass, material, and transparency. We demonstrate that our method not only improves the comprehension of spatial relationships among objects in the visual environment but also enables robots to interact with these objects more effectively. As a result, this approach significantly enhances spatial reasoning in robotic manipulation tasks. To our knowledge, this is the first method of its kind in the literature, offering a novel solution that allows robots to more efficiently organize and utilize objects in their surroundings.

arxiv情報

著者 Nurhan Bulus Guran,Hanchi Ren,Jingjing Deng,Xianghua Xie
発行日 2025-05-20 09:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Task-oriented Robotic Manipulation with Vision Language Models はコメントを受け付けていません

FlowQ: Energy-Guided Flow Policies for Offline Reinforcement Learning

要約

希望の結果に向けてサンプリングを操縦するためのガイダンスの使用は、特に画像や軌道生成などのアプリケーションで拡散モデル内で広く調査されています。
ただし、トレーニング中にガイダンスを組み込むことは、比較的目立たないままです。
この作業では、エネルギー誘導フローマッチングを導入します。これは、フローモデルのトレーニングを強化し、推論時間にガイダンスの必要性を排除する新しいアプローチです。
エネルギー誘導確率パスをガウス経路として近似することにより、フローポリシーに対応する条件速度フィールドを学習します。
学習ガイド付き軌道は、補強学習のように、データとエネルギー関数の組み合わせによってターゲット分布が定義されるタスクに魅力的です。
拡散ベースのポリシーは、最近、表現力のある力とマルチモーダルアクション分布をキャプチャする能力に注目を集めています。
通常、これらのポリシーは、加重目標を使用して、またはポリシーによってサンプリングされたアクションを介したバックプロパジングの勾配を使用して最適化されます。
別の方法として、エネルギー誘導フローマッチングに基づいたオフライン強化学習アルゴリズムであるFlowQを提案します。
私たちの方法は競争力のあるパフォーマンスを達成しますが、ポリシートレーニング時間はフローサンプリングステップの数で一定です。

要約(オリジナル)

The use of guidance to steer sampling toward desired outcomes has been widely explored within diffusion models, especially in applications such as image and trajectory generation. However, incorporating guidance during training remains relatively underexplored. In this work, we introduce energy-guided flow matching, a novel approach that enhances the training of flow models and eliminates the need for guidance at inference time. We learn a conditional velocity field corresponding to the flow policy by approximating an energy-guided probability path as a Gaussian path. Learning guided trajectories is appealing for tasks where the target distribution is defined by a combination of data and an energy function, as in reinforcement learning. Diffusion-based policies have recently attracted attention for their expressive power and ability to capture multi-modal action distributions. Typically, these policies are optimized using weighted objectives or by back-propagating gradients through actions sampled by the policy. As an alternative, we propose FlowQ, an offline reinforcement learning algorithm based on energy-guided flow matching. Our method achieves competitive performance while the policy training time is constant in the number of flow sampling steps.

arxiv情報

著者 Marvin Alles,Nutan Chen,Patrick van der Smagt,Botond Cseke
発行日 2025-05-20 09:43:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | FlowQ: Energy-Guided Flow Policies for Offline Reinforcement Learning はコメントを受け付けていません

Triplane Grasping: Efficient 6-DoF Grasping with Single RGB Images

要約

信頼できるオブジェクトの把握は、ロボット工学の基本的なタスクの1つです。
ただし、視覚情報が限られていることと実際のオブジェクトの複雑さのために、シングルイメージの入力に基づいて把握ポーズを決定することは長い間課題でした。
このホワイトペーパーでは、トリプレーンの把握を提案します。これは、入力として単一のRGBのみの画像のみにのみ依存する速い把握する意思決定方法です。
Triplane Graspingは、ポイントデコーダーとトリプレーンデコーダーを介してハイブリッドトリプレーンガウス3D表現を作成し、リアルタイムのグレーズ要件を満たすために把握するオブジェクトの効率的で高品質の再構築を生成します。
エンドツーエンドのネットワークを使用して、潜在的な把握接点としてポイントクラウドの3Dポイントから直接6-DOFパラレルジョーグラップ分布を生成し、観察されたデータに把握したポーズを固定することを提案します。
OmnioBject3DおよびGraspNet-10億のデータセットでの実験は、私たちの方法が毎日のオブジェクトの迅速なモデリングと把握が意思決定をもたらし、強力な一般化能力を達成することを示しています。

要約(オリジナル)

Reliable object grasping is one of the fundamental tasks in robotics. However, determining grasping pose based on single-image input has long been a challenge due to limited visual information and the complexity of real-world objects. In this paper, we propose Triplane Grasping, a fast grasping decision-making method that relies solely on a single RGB-only image as input. Triplane Grasping creates a hybrid Triplane-Gaussian 3D representation through a point decoder and a triplane decoder, which produce an efficient and high-quality reconstruction of the object to be grasped to meet real-time grasping requirements. We propose to use an end-to-end network to generate 6-DoF parallel-jaw grasp distributions directly from 3D points in the point cloud as potential grasp contacts and anchor the grasp pose in the observed data. Experiments on the OmniObject3D and GraspNet-1Billion datasets demonstrate that our method achieves rapid modeling and grasping pose decision-making for daily objects, and strong generalization capability.

arxiv情報

著者 Yiming Li,Hanchi Ren,Yue Yang,Jingjing Deng,Xianghua Xie
発行日 2025-05-20 09:53:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Triplane Grasping: Efficient 6-DoF Grasping with Single RGB Images はコメントを受け付けていません