CHARMS: Cognitive Hierarchical Agent with Reasoning and Motion Styles

要約

自律走行シミュレーションシナリオにおける低知能と単純化された車両挙動モデリングという現在の課題に対処するため、本稿では推論と動作スタイルを持つ認知階層エージェント(CHARMS)を提案する。このモデルは、人間のドライバーのように他車両の行動を推論し、異なる意思決定スタイルで応答することができ、それによって運転シナリオにおける周辺車両の知能と多様性を向上させる。本論文では、Level-k行動ゲーム理論を導入することで、人間のドライバーの意思決定プロセスをモデル化し、深層強化学習を採用して多様な意思決定スタイルでモデルを訓練し、異なる推論アプローチと行動特性をシミュレートする。ポアソン認知階層理論に基づき、本論文は新しい運転シナリオ生成手法も提示する。この手法は、ポアソン分布と二項分布を用いて、シナリオ中の異なる運転スタイルの車両の割合を制御し、制御可能で多様な運転環境を生成する。実験の結果、CHARMSは自車両として優れた意思決定能力を示すだけでなく、周辺車両としてより複雑で多様な走行シナリオを生成することが実証された。CHARMSのコードはhttps://github.com/WUTAD-Wjy/CHARMS。

要約(オリジナル)

To address the current challenges of low intelligence and simplistic vehicle behavior modeling in autonomous driving simulation scenarios, this paper proposes the Cognitive Hierarchical Agent with Reasoning and Motion Styles (CHARMS). The model can reason about the behavior of other vehicles like a human driver and respond with different decision-making styles, thereby improving the intelligence and diversity of the surrounding vehicles in the driving scenario. By introducing the Level-k behavioral game theory, the paper models the decision-making process of human drivers and employs deep reinforcement learning to train the models with diverse decision styles, simulating different reasoning approaches and behavioral characteristics. Building on the Poisson cognitive hierarchy theory, this paper also presents a novel driving scenario generation method. The method controls the proportion of vehicles with different driving styles in the scenario using Poisson and binomial distributions, thus generating controllable and diverse driving environments. Experimental results demonstrate that CHARMS not only exhibits superior decision-making capabilities as ego vehicles, but also generates more complex and diverse driving scenarios as surrounding vehicles. We will release code for CHARMS at https://github.com/WUTAD-Wjy/CHARMS.

arxiv情報

著者 Jingyi Wang,Duanfeng Chu,Zejian Deng,Liping Lu
発行日 2025-04-03 10:15:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO | CHARMS: Cognitive Hierarchical Agent with Reasoning and Motion Styles はコメントを受け付けていません

6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting

要約

効率的で正確なオブジェクトのポーズ推定は、拡張現実感、自律走行、ロボット工学などの多くのアプリケーションにおける最新のビジョンシステムにとって不可欠な要素である。モデルベースの6Dオブジェクトポーズ推定に関する研究は有望な結果をもたらしているが、モデルフリーの手法は、ライブRGB-Dビデオストリーム中の任意のオブジェクトの一貫したポーズをレンダリングし、推論する際の高い計算負荷が妨げとなっている。この問題に対処するために、我々は6DOPE-GSを発表します。これは、ガウシアンスプラッティングの進歩を効果的に活用することで、1台のRGB-Dカメラでオンライン6次元物体姿勢推定・追跡を行う新しい手法です。ガウススプラッティングの高速微分可能なレンダリング機能により、6DOPE-GSは6次元物体のポーズと3次元物体の再構成を同時に最適化することができます。ライブトラッキングに必要な効率と精度を達成するために、我々の手法はインテリジェントなダイナミックキーフレーム選択手順でインクリメンタル2Dガウススプラッティングを使用し、高い空間オブジェクトカバレッジを達成し、誤ったポーズ更新を防ぎます。また、学習の安定性と効率を確保するために、適応的なガウス密度制御のための不透明度統計に基づく刈り込みメカニズムを提案する。HO3DとYCBInEOATデータセットで本手法を評価し、6DOPE-GSがモデルフリーの6Dポーズ追跡と再構成の同時処理において、5$times$のスピードアップを実現しながら、最先端のベースラインの性能に匹敵することを示す。また、この手法が実世界におけるライブで動的なオブジェクトの追跡と再構築に適していることを実証する。

要約(オリジナル)

Efficient and accurate object pose estimation is an essential component for modern vision systems in many applications such as Augmented Reality, autonomous driving, and robotics. While research in model-based 6D object pose estimation has delivered promising results, model-free methods are hindered by the high computational load in rendering and inferring consistent poses of arbitrary objects in a live RGB-D video stream. To address this issue, we present 6DOPE-GS, a novel method for online 6D object pose estimation \& tracking with a single RGB-D camera by effectively leveraging advances in Gaussian Splatting. Thanks to the fast differentiable rendering capabilities of Gaussian Splatting, 6DOPE-GS can simultaneously optimize for 6D object poses and 3D object reconstruction. To achieve the necessary efficiency and accuracy for live tracking, our method uses incremental 2D Gaussian Splatting with an intelligent dynamic keyframe selection procedure to achieve high spatial object coverage and prevent erroneous pose updates. We also propose an opacity statistic-based pruning mechanism for adaptive Gaussian density control, to ensure training stability and efficiency. We evaluate our method on the HO3D and YCBInEOAT datasets and show that 6DOPE-GS matches the performance of state-of-the-art baselines for model-free simultaneous 6D pose tracking and reconstruction while providing a 5$\times$ speedup. We also demonstrate the method’s suitability for live, dynamic object tracking and reconstruction in a real-world setting.

arxiv情報

著者 Yufeng Jin,Vignesh Prasad,Snehal Jauhri,Mathias Franzius,Georgia Chalvatzaki
発行日 2025-04-03 10:25:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | 6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting はコメントを受け付けていません

Adaptive path planning for efficient object search by UAVs in agricultural fields

要約

本論文では、UAVを用いた農地における物体探索のための適応型パスプランナーを紹介する。パスプランナーは、高高度をカバーする飛行経路を使用し、検出ネットワークが不確実な場合には、追加の低高度検査を計画する。パスプランナーは、実世界の画像を含むオフラインシミュレーション環境で評価した。YOLOv8検出ネットワークを訓練し、草原に置かれた人工植物を検出させ、パスプランナーの可能性を示した。様々な検出信頼度尺度の効果を評価し、パスプランニングパラメータを最適化し、ローカライゼーションエラーやフィールド内の異なるオブジェクト数の影響を調査した。YOLOv8の検出確信度は、真陽性検出と偽陽性検出を区別するのに最も効果的であったため、適応プランナーで使用した。対象物が一様に分布している場合、対象物の分布が一様でない場合と比較して、より多くの低高度検査が必要となり、その結果、経路長が長くなる。適応プランナーはローカライゼーションの不確実性に対してロバストであることが証明された。対象物の数を増やすと、特に対象物が一様に分布している場合に飛行経路長が長くなった。物体が一様に分布していない場合には、物体の数が多くても、適応パスプランナーは低高度カバレッジパスよりも短いパスをもたらした。全体として、提示された適応パスプランナーは、カバレッジパスプランナーよりも高速にフィールド内の非一様に分布した物体を見つけることができ、互換性のある検出精度をもたらした。パスプランナーはhttps://github.com/wur-abe/uav_adaptive_planner。

要約(オリジナル)

This paper presents an adaptive path planner for object search in agricultural fields using UAVs. The path planner uses a high-altitude coverage flight path and plans additional low-altitude inspections when the detection network is uncertain. The path planner was evaluated in an offline simulation environment containing real-world images. We trained a YOLOv8 detection network to detect artificial plants placed in grass fields to showcase the potential of our path planner. We evaluated the effect of different detection certainty measures, optimized the path planning parameters, investigated the effects of localization errors and different numbers of objects in the field. The YOLOv8 detection confidence worked best to differentiate between true and false positive detections and was therefore used in the adaptive planner. The optimal parameters of the path planner depended on the distribution of objects in the field, when the objects were uniformly distributed, more low-altitude inspections were needed compared to a non-uniform distribution of objects, resulting in a longer path length. The adaptive planner proved to be robust against localization uncertainty. When increasing the number of objects, the flight path length increased, especially when the objects were uniformly distributed. When the objects were non-uniformly distributed, the adaptive path planner yielded a shorter path than a low-altitude coverage path, even with high number of objects. Overall, the presented adaptive path planner allowed to find non-uniformly distributed objects in a field faster than a coverage path planner and resulted in a compatible detection accuracy. The path planner is made available at https://github.com/wur-abe/uav_adaptive_planner.

arxiv情報

著者 Rick van Essen,Eldert van Henten,Lammert Kooistra,Gert Kootstra
発行日 2025-04-03 10:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | Adaptive path planning for efficient object search by UAVs in agricultural fields はコメントを受け付けていません

Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision

要約

ロボットビジョンは、マルチモーダル融合技術と視覚言語モデル(VLM)の進歩から大きな恩恵を受けている。我々は、意味的なシーン理解、同時定位とマッピング(SLAM)、3Dオブジェクト検出、ナビゲーションと定位、ロボット操作などの主要なロボットビジョンタスクにおけるマルチモーダル融合のアプリケーションを体系的にレビューする。我々は、大規模言語モデル(LLM)に基づくVLMを従来のマルチモーダル融合手法と比較し、その利点、限界、相乗効果を分析する。さらに、一般的に使用されているデータセットの詳細な分析を行い、実世界のロボットシナリオにおける適用可能性と課題を評価する。さらに、クロスモーダルアライメント、効率的な融合戦略、リアルタイム展開、ドメイン適応などの重要な研究課題を特定し、ロバストなマルチモーダル表現のための自己教師付き学習、トランスフォーマベースの融合アーキテクチャ、スケーラブルなマルチモーダルフレームワークなどの将来の研究の方向性を提案する。包括的なレビュー、比較分析、将来を見据えた議論を通じて、ロボットビジョンにおけるマルチモーダル知覚とインタラクションを発展させるための貴重な参考文献を提供する。本サーベイの包括的な研究リストは、https://github.com/Xiaofeng-Han-Res/MF-RV。

要約(オリジナル)

Robot vision has greatly benefited from advancements in multimodal fusion techniques and vision-language models (VLMs). We systematically review the applications of multimodal fusion in key robotic vision tasks, including semantic scene understanding, simultaneous localization and mapping (SLAM), 3D object detection, navigation and localization, and robot manipulation. We compare VLMs based on large language models (LLMs) with traditional multimodal fusion methods, analyzing their advantages, limitations, and synergies. Additionally, we conduct an in-depth analysis of commonly used datasets, evaluating their applicability and challenges in real-world robotic scenarios. Furthermore, we identify critical research challenges such as cross-modal alignment, efficient fusion strategies, real-time deployment, and domain adaptation, and propose future research directions, including self-supervised learning for robust multimodal representations, transformer-based fusion architectures, and scalable multimodal frameworks. Through a comprehensive review, comparative analysis, and forward-looking discussion, we provide a valuable reference for advancing multimodal perception and interaction in robotic vision. A comprehensive list of studies in this survey is available at https://github.com/Xiaofeng-Han-Res/MF-RV.

arxiv情報

著者 Xiaofeng Han,Shunpeng Chen,Zenghuang Fu,Zhe Feng,Lue Fan,Dong An,Changwei Wang,Li Guo,Weiliang Meng,Xiaopeng Zhang,Rongtao Xu,Shibiao Xu
発行日 2025-04-03 10:53:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision はコメントを受け付けていません

Industrial Internet Robot Collaboration System and Edge Computing Optimization

要約

複雑な環境において、移動ロボットがすべての障害物を安全かつ衝突なく回避するためには、その知能レベルに高い要求が課される。障害物の位置や幾何学的特性などの情報はランダムであるため、ロボットの制御パラメータ、例えば速度や角速度もランダムな偏差を生じやすい。産業インターネットロボット連携システムの枠組みでこの問題に対処するために、本論文はディープラーニングに基づく移動ロボットのグローバル経路制御方式を提案する。まず、移動ロボットの力学方程式を確立する。移動ロボットの直線速度と角速度により、移動ロボットの動作は障害物回避動作、目標物旋回動作、目標物接近動作に分けられる。続いて、ディープラーニングのニューラルネットワーク法を用いて、ロボットのグローバル経路計画モデルを構築する。これを基に、ファジィ制御アルゴリズムを用いてファジィ制御器を設計し、経路計画中に発生する偏差を補正することで、ロボットのグローバル経路の最適化制御を実現する。さらに、エッジコンピューティングの最適化を考慮し、提案モデルはエッジデバイスでローカルデータを処理することができ、ロボットと中央サーバ間の通信負担を軽減し、経路計画のリアルタイム性能を向上させる。実験の結果、本論文の研究手法により制御された移動ロボットの場合、進路角度の偏差距離は5cm以内であり、偏差収束は10ms以内に完了し、計画された進路はより短くなることが示された。これは、提案方式が産業インターネット環境における移動ロボットのグローバル経路計画能力を効果的に向上させ、エッジコンピューティング最適化を通じてロボットの協調動作を促進できることを示している。

要約(オリジナル)

In a complex environment, for a mobile robot to safely and collision – free avoid all obstacles, it poses high requirements for its intelligence level. Given that the information such as the position and geometric characteristics of obstacles is random, the control parameters of the robot, such as velocity and angular velocity, are also prone to random deviations. To address this issue in the framework of the Industrial Internet Robot Collaboration System, this paper proposes a global path control scheme for mobile robots based on deep learning. First of all, the dynamic equation of the mobile robot is established. According to the linear velocity and angular velocity of the mobile robot, its motion behaviors are divided into obstacle – avoidance behavior, target – turning behavior, and target approaching behavior. Subsequently, the neural network method in deep learning is used to build a global path planning model for the robot. On this basis, a fuzzy controller is designed with the help of a fuzzy control algorithm to correct the deviations that occur during path planning, thereby achieving optimized control of the robot’s global path. In addition, considering edge computing optimization, the proposed model can process local data at the edge device, reducing the communication burden between the robot and the central server, and improving the real time performance of path planning. The experimental results show that for the mobile robot controlled by the research method in this paper, the deviation distance of the path angle is within 5 cm, the deviation convergence can be completed within 10 ms, and the planned path is shorter. This indicates that the proposed scheme can effectively improve the global path planning ability of mobile robots in the industrial Internet environment and promote the collaborative operation of robots through edge computing optimization.

arxiv情報

著者 Qian Zuo,Dajun Tao,Tian Qi,Jieyi Xie,Zijie Zhou,Zhen Tian,Yu Mingyu
発行日 2025-04-03 11:15:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO | Industrial Internet Robot Collaboration System and Edge Computing Optimization はコメントを受け付けていません

A Memory-Augmented LLM-Driven Method for Autonomous Merging of 3D Printing Work Orders

要約

3Dプリンティングの急速な発展に伴い、製造ラインにおけるパーソナライズされたカスタマイズ生産の需要は着実に増加している。印刷ワークピースの効率的なマージは、生産ラインの処理効率を大幅に向上させることができます。この課題に対処するため、本論文では、3D印刷ワークオーダーの自律的な結合のために、大規模言語モデル(LLM)駆動型手法を確立し、メモリ増強学習戦略と統合した。産業シナリオにおいて、デバイスとオーダーの特徴の両方をLLM読み取り可能な自然言語プロンプトテンプレートにモデル化し、マージ干渉チェックモジュールとともに、オーダーとデバイスのマッチングツールを開発する。自己記憶学習戦略を組み込むことにより、自律的なオーダーマージングのための知的エージェントが構築され、オーダ割当ての精度と正確性が向上する。提案手法は、産業応用におけるLLMの長所を効果的に活用すると同時に、幻覚を減少させる。

要約(オリジナル)

With the rapid development of 3D printing, the demand for personalized and customized production on the manufacturing line is steadily increasing. Efficient merging of printing workpieces can significantly enhance the processing efficiency of the production line. Addressing the challenge, a Large Language Model (LLM)-driven method is established in this paper for the autonomous merging of 3D printing work orders, integrated with a memory-augmented learning strategy. In industrial scenarios, both device and order features are modeled into LLM-readable natural language prompt templates, and develop an order-device matching tool along with a merging interference checking module. By incorporating a self-memory learning strategy, an intelligent agent for autonomous order merging is constructed, resulting in improved accuracy and precision in order allocation. The proposed method effectively leverages the strengths of LLMs in industrial applications while reducing hallucination.

arxiv情報

著者 Yuhao Liu,Maolin Yang,Pingyu Jiang
発行日 2025-04-03 11:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO | A Memory-Augmented LLM-Driven Method for Autonomous Merging of 3D Printing Work Orders はコメントを受け付けていません

A Planning Framework for Stable Robust Multi-Contact Manipulation

要約

多接点マニピュレーションを、異なる接触平衡間を遷移する準静的な機械的プロセスとしてモデル化する一方で、(i)接触の安定性と(ii)センサーノイズに対するロバスト性を明示的に評価する、計画・最適化問題として定式化することを提案する。具体的には、マルチマニピュレータ制御戦略に関する包括的な研究を行い、平面的なペグインホールタスクにおけるデュアルアーム実行に焦点を当て、タスクの複雑性を増すことを探求するために、マルチマニピュレータ・マルチペグインホール(MMPiH)問題に拡張する。我々のフレームワークは、DMP(Dynamic Movement Primitives:動的動作プリミティブ)を用いて所望の軌道をパラメータ化し、BBO(Black-Box Optimization:ブラックボックス最適化)を用いて摩擦円錐制約、スクイーズ力、安定性を考慮した包括的なコスト関数を組み込みます。並列シナリオ学習を統合することで、学習されたポリシーのロバスト性を高める。摩擦円錐コストを実験的に評価するために、様々な接触面、すなわち異なる摩擦係数を用いて計算された最適軌道をテストする。安定性コストは解析的に説明し、シミュレーションでその必要性を検証した。ロバスト性能は、シミュレーションと実験で穴のポーズと面取りサイズを変化させることで定量化した。その結果、本アプローチは、1つのペグインホールと複数のペグインホールの両方のタスクで一貫して高い成功率を達成し、その有効性と一般性を確認した。ビデオはhttps://youtu.be/IU0pdnSd4tE。

要約(オリジナル)

While modeling multi-contact manipulation as a quasi-static mechanical process transitioning between different contact equilibria, we propose formulating it as a planning and optimization problem, explicitly evaluating (i) contact stability and (ii) robustness to sensor noise. Specifically, we conduct a comprehensive study on multi-manipulator control strategies, focusing on dual-arm execution in a planar peg-in-hole task and extending it to the Multi-Manipulator Multiple Peg-in-Hole (MMPiH) problem to explore increased task complexity. Our framework employs Dynamic Movement Primitives (DMPs) to parameterize desired trajectories and Black-Box Optimization (BBO) with a comprehensive cost function incorporating friction cone constraints, squeeze forces, and stability considerations. By integrating parallel scenario training, we enhance the robustness of the learned policies. To evaluate the friction cone cost in experiments, we test the optimal trajectories computed for various contact surfaces, i.e., with different coefficients of friction. The stability cost is analytical explained and tested its necessity in simulation. The robustness performance is quantified through variations of hole pose and chamfer size in simulation and experiment. Results demonstrate that our approach achieves consistently high success rates in both the single peg-in-hole and multiple peg-in-hole tasks, confirming its effectiveness and generalizability. The video can be found at https://youtu.be/IU0pdnSd4tE.

arxiv情報

著者 Lin Yang,Sri Harsha Turlapati,Zhuoyi Lu,Chen Lv,Domenico Campolo
発行日 2025-04-03 12:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | A Planning Framework for Stable Robust Multi-Contact Manipulation はコメントを受け付けていません

A nonlinear real time capable motion cueing algorithm based on deep reinforcement learning

要約

モーションシミュレーションでは、モーションシミュレータのプラットフォームの軌道計画にモーションキューイングアルゴリズムが使用されます。このような状況では、プラットフォームを中心に戻すモーションウォッシュアウトなどの戦略が重要です。非線形性の高い作業空間を持つ直列ロボットMSPでは、MSPの運動学的および動的能力を最大限に効率的に利用することが不可欠です。古典的なウォッシュアウトフィルタリングや線形モデル予測制御を含む従来のアプローチでは、プラットフォーム固有の非線形特性を考慮することができません。一方、非線形モデル予測制御は、包括的ではあるものの、計算負荷が高く、さらに単純化しないとリアルタイムのパイロットインザループの適用を妨げます。これらの限界を克服するために、我々は、MSPの運動学的非線形性を完全に考慮した6自由度設定で初めて実証された、モーションキューイングのための深層強化学習を用いた新しいアプローチを紹介する。著者らによる以前の研究では、運動学的・動的制約を考慮しない単純化された2自由度セットアップにDRLを適用することに成功した。このアプローチは、MSPの完全な運動学モデルをアルゴリズムに組み込むことで、6自由度すべてに拡張されました。DRL-MCAのトレーニングは、自動ハイパーパラメータ最適化と組み合わせたアクター・クリティック実装のProximal Policy Optimizationに基づいています。必要なトレーニングフレームワークとアルゴリズム自体を詳細に説明した後、包括的な検証を行い、DRL MCAが既存のアルゴリズムに対して競争力のある性能を達成することを実証する。さらに、DRL MCAは、全てのシステム制約を尊重して実行可能な軌道を生成し、全てのリアルタイム要件を低…

要約(オリジナル)

In motion simulation, motion cueing algorithms are used for the trajectory planning of the motion simulator platform, where workspace limitations prevent direct reproduction of reference trajectories. Strategies such as motion washout, which return the platform to its center, are crucial in these settings. For serial robotic MSPs with highly nonlinear workspaces, it is essential to maximize the efficient utilization of the MSPs kinematic and dynamic capabilities. Traditional approaches, including classical washout filtering and linear model predictive control, fail to consider platform-specific, nonlinear properties, while nonlinear model predictive control, though comprehensive, imposes high computational demands that hinder real-time, pilot-in-the-loop application without further simplification. To overcome these limitations, we introduce a novel approach using deep reinforcement learning for motion cueing, demonstrated here for the first time in a 6-degree-of-freedom setting with full consideration of the MSPs kinematic nonlinearities. Previous work by the authors successfully demonstrated the application of DRL to a simplified 2-DOF setup, which did not consider kinematic or dynamic constraints. This approach has been extended to all 6 DOF by incorporating a complete kinematic model of the MSP into the algorithm, a crucial step for enabling its application on a real motion simulator. The training of the DRL-MCA is based on Proximal Policy Optimization in an actor-critic implementation combined with an automated hyperparameter optimization. After detailing the necessary training framework and the algorithm itself, we provide a comprehensive validation, demonstrating that the DRL MCA achieves competitive performance against established algorithms. Moreover, it generates feasible trajectories by respecting all system constraints and meets all real-time requirements with low…

arxiv情報

著者 Hendrik Scheidel,Camilo Gonzalez,Houshyar Asadi,Tobias Bellmann,Andreas Seefried,Shady Mohamed,Saeid Nahavandi
発行日 2025-04-03 13:13:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | A nonlinear real time capable motion cueing algorithm based on deep reinforcement learning はコメントを受け付けていません

ArtFormer: Controllable Generation of Diverse 3D Articulated Objects

要約

本稿では、3D多関節オブジェクトのモデリングと条件生成のための新しいフレームワークを紹介する。柔軟性と品質のトレードオフに悩まされる既存の手法は、多くの場合、事前に定義された構造を使用するか、静的データセットから形状を取得することに限定される。このような課題を解決するために、我々は多関節オブジェクトをトークンのツリーとしてパラメータ化し、変換器を用いてオブジェクトの高レベルジオメトリコードと運動学的関係の両方を生成する。その後、各サブパーツの形状は、符号付き距離関数(SDF)形状事前分布を使用してさらにデコードされ、高品質の3D形状の合成を容易にする。我々のアプローチにより、高品質な形状と様々な部品数を持つ多様なオブジェクトの生成が可能となる。テキスト記述からの条件生成に関する包括的な実験により、本手法の有効性と柔軟性が実証された。

要約(オリジナル)

This paper presents a novel framework for modeling and conditional generation of 3D articulated objects. Troubled by flexibility-quality tradeoffs, existing methods are often limited to using predefined structures or retrieving shapes from static datasets. To address these challenges, we parameterize an articulated object as a tree of tokens and employ a transformer to generate both the object’s high-level geometry code and its kinematic relations. Subsequently, each sub-part’s geometry is further decoded using a signed-distance-function (SDF) shape prior, facilitating the synthesis of high-quality 3D shapes. Our approach enables the generation of diverse objects with high-quality geometry and varying number of parts. Comprehensive experiments on conditional generation from text descriptions demonstrate the effectiveness and flexibility of our method.

arxiv情報

著者 Jiayi Su,Youhe Feng,Zheng Li,Jinhua Song,Yangfan He,Botao Ren,Botian Xu
発行日 2025-04-03 14:16:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.RO | ArtFormer: Controllable Generation of Diverse 3D Articulated Objects はコメントを受け付けていません

Autonomous Human-Robot Interaction via Operator Imitation

要約

遠隔操作されたロボットのキャラクタは、操作者の経験や社会的直感を頼りに、人間と表情豊かなインタラクションを行うことができる。本研究では、オペレータのデータを模倣するモデルを学習することで、自律的な対話ロボットを作成することを提案する。我々のモデルは、人間とロボットのインタラクションのデータセットを用いて学習される。このデータセットでは、熟練したオペレータがロボットのインタラクションやムードを変化させるよう依頼され、オペレータのコマンドや人間とロボットのポーズが記録される。我々のアプローチは、拡散過程を通して連続的なオペレータのコマンドを予測することを学習し、分類器を通して離散的なコマンドを予測することを学習する。我々は、結果として得られたモデルを、シミュレーションと、実システムを用いたユーザースタディで評価する。本手法により、専門家とオペレータのベースラインと同等の簡単な自律的な人間とロボットのインタラクションが可能になること、また、本モデルにより生成されたロボットの様々な気分をユーザが認識できることを示す。最後に、我々のモデルを、同じオペレータインタフェースを持つ別のロボットプラットフォーム上にゼロショットで転送することを実証する。

要約(オリジナル)

Teleoperated robotic characters can perform expressive interactions with humans, relying on the operators’ experience and social intuition. In this work, we propose to create autonomous interactive robots, by training a model to imitate operator data. Our model is trained on a dataset of human-robot interactions, where an expert operator is asked to vary the interactions and mood of the robot, while the operator commands as well as the pose of the human and robot are recorded. Our approach learns to predict continuous operator commands through a diffusion process and discrete commands through a classifier, all unified within a single transformer architecture. We evaluate the resulting model in simulation and with a user study on the real system. We show that our method enables simple autonomous human-robot interactions that are comparable to the expert-operator baseline, and that users can recognize the different robot moods as generated by our model. Finally, we demonstrate a zero-shot transfer of our model onto a different robotic platform with the same operator interface.

arxiv情報

著者 Sammy Christen,David Müller,Agon Serifi,Ruben Grandia,Georg Wiedebach,Michael A. Hopkins,Espen Knoop,Moritz Bächer
発行日 2025-04-03 16:06:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO | Autonomous Human-Robot Interaction via Operator Imitation はコメントを受け付けていません