Analyzing Fundamental Diagrams of Mixed Traffic Control at Unsignalized Intersections

要約

このレポートでは、信号のない交差点の基本的なダイヤグラムに対する、混合交通の影響、特にロボット車両 (RV) の普及率の変動を調査します。
4 つの異なる交差点にわたる一連のシミュレーションを通じて、交通流特性間の関係が分析されました。
RV 透過率は 0% から 100% まで 25% 刻みで変化しました。
この研究では、RV の存在が交通動態に影響を与える一方、流れと速度への影響は RV の普及レベルが異なると均一ではないことが明らかになりました。
基本的な図は、RV のレベルが変化すると交差点の収容力が増加する可能性があることを示していますが、RV 普及率が 100% に近づくと、この傾向は一貫して当てはまりません。
交差点全体で観察された変動は、局所的な要因が交通の流れの特性に影響を与えている可能性があることを示唆しています。
これらの調査結果は、RV を既存の交通システムに統合することの複雑さを浮き彫りにし、RV の存在増加への移行に対応する交差点固有の交通管理戦略の必要性を強調しています。

要約(オリジナル)

This report examines the effect of mixed traffic, specifically the variation in robot vehicle (RV) penetration rates, on the fundamental diagrams at unsignalized intersections. Through a series of simulations across four distinct intersections, the relationship between traffic flow characteristics were analyzed. The RV penetration rates were varied from 0% to 100% in increments of 25%. The study reveals that while the presence of RVs influences traffic dynamics, the impact on flow and speed is not uniform across different levels of RV penetration. The fundamental diagrams indicate that intersections may experience an increase in capacity with varying levels of RVs, but this trend does not consistently hold as RV penetration approaches 100%. The variability observed across intersections suggests that local factors possibly influence the traffic flow characteristics. These findings highlight the complexity of integrating RVs into the existing traffic system and underscore the need for intersection-specific traffic management strategies to accommodate the transition towards increased RV presence.

arxiv情報

著者 Iftekharul Islam,Weizi Li
発行日 2024-12-20 02:41:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

System Safety Monitoring of Learned Components Using Temporal Metric Forecasting

要約

学習可能な自律システムでは、システムの動作コンテキストを考慮して、その出力がシステムの安全性違反につながらないようにするために、学習したコンポーネントの安全性を監視することが重要です。
ただし、実際のアプリケーションに実際に導入するための安全モニターを開発するのは困難です。
これは、学習されたコンポーネントの内部動作およびトレーニング データへのアクセスが制限されているためです。
さらに、安全モニターは、適切な量の計算を消費しながら、低遅延で安全違反を予測する必要があります。
この課題に対処するために、私たちは確率的時系列予測に基づいた安全監視手法を提案します。
学習されたコンポーネントの出力と運用コンテキストを考慮して、さまざまな深層学習 (DL) ベースの確率的予測を経験的に調査し、安全要件の満足または違反を捕捉する客観的な尺度 (安全指標) を予測します。
私たちは、自律飛行と自動運転のケーススタディを使用して、さまざまな視野を持つ 4 つの最先端モデルの安全指標と違反予測精度、推論遅延とリソース使用量を実証的に評価します。
私たちの結果は、学習されたコンポーネントの出力とシナリオを考慮した安全指標の確率的予測が安全監視に効果的であることを示唆しています。
さらに、どちらのケース スタディでも、許容可能な遅延とリソース消費を備えた、差し迫った安全違反を予測するための最も正確なモデルは、Temporal Fusion Transformer (TFT) でした。

要約(オリジナル)

In learning-enabled autonomous systems, safety monitoring of learned components is crucial to ensure their outputs do not lead to system safety violations, given the operational context of the system. However, developing a safety monitor for practical deployment in real-world applications is challenging. This is due to limited access to internal workings and training data of the learned component. Furthermore, safety monitors should predict safety violations with low latency, while consuming a reasonable amount of computation. To address the challenges, we propose a safety monitoring method based on probabilistic time series forecasting. Given the learned component outputs and an operational context, we empirically investigate different Deep Learning (DL)-based probabilistic forecasting to predict the objective measure capturing the satisfaction or violation of a safety requirement (safety metric). We empirically evaluate safety metric and violation prediction accuracy, and inference latency and resource usage of four state-of-the-art models, with varying horizons, using autonomous aviation and autonomous driving case studies. Our results suggest that probabilistic forecasting of safety metrics, given learned component outputs and scenarios, is effective for safety monitoring. Furthermore, for both case studies, Temporal Fusion Transformer (TFT) was the most accurate model for predicting imminent safety violations, with acceptable latency and resource consumption.

arxiv情報

著者 Sepehr Sharifi,Andrea Stocco,Lionel C. Briand
発行日 2024-12-20 03:10:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SE | コメントする

Enhancing Large-scale UAV Route Planing with Global and Local Features via Reinforcement Graph Fusion

要約

無人航空機ルート プランニング (UAVRP) を解決するための精度、速度、並列処理において、数多くの顕著な進歩が見られました。
ただし、既存の UAVRP ソルバーは、大規模なインスタンスに合わせて効果的かつ効率的に拡張しようとすると課題に直面します。
このペーパーでは、広く認識されているテスト セットを使用して、現在の UAVRP ソルバーが最大 10,000 ポイントを収容できる大規模なインスタンスにその機能を堅牢に拡張できるようにする一般化フレームワークを紹介します。
多数の巡回ポイントの下での UAVRP は、典型的な大規模 TSP 問題です。私たちが提案するフレームワークは 3 つの異なるステップで構成されます。
まず、ドロネー三角形分割を使用して、グローバルな特徴を維持しながら大規模なインスタンスからサブグラフを抽出します。
次に、埋め込み TSP ソルバーを利用してサブ結果を取得し、その後グラフ融合を行います。
最後に、ユーザーの要件に合わせてカスタマイズ可能なデコード戦略を実装し、ヒートマップのウォームアップ プロセスによって補完された高品質のソリューションが得られます。
私たちのアプローチの柔軟性を実証するために、2 つの代表的な TSP ソルバーをフレームワークに統合し、大規模な TSP ベンチマーク データセットを使用して既存のアルゴリズムとの包括的な比較分析を実行します。
この結果は、私たちのフレームワークが既存の TSP ソルバーを効率的に拡張して大規模なインスタンスを処理し、一貫して最先端 (SOTA) メソッドを上回るパフォーマンスを示していることを明確に示しています。
さらに、私たちが提案したフレームワークは追加のトレーニングや微調整を必要としないため、その汎用性によりエンドツーエンドの UAVRP ソルバーの研究が大幅に前進し、より幅広い手法を現実世界のシナリオに適用できるようになると考えています。

要約(オリジナル)

Numerous remarkable advancements have been made in accuracy, speed, and parallelism for solving the Unmanned Aerial Vehicle Route Planing (UAVRP). However, existing UAVRP solvers face challenges when attempting to scale effectively and efficiently for larger instances. In this paper, we present a generalization framework that enables current UAVRP solvers to robustly extend their capabilities to larger instances, accommodating up to 10,000 points, using widely recognized test sets. The UAVRP under a large number of patrol points is a typical large-scale TSP problem.Our proposed framework comprises three distinct steps. Firstly, we employ Delaunay triangulation to extract subgraphs from large instances while preserving global features. Secondly, we utilize an embedded TSP solver to obtain sub-results, followed by graph fusion. Finally, we implement a decoding strategy customizable to the user’s requirements, resulting in high-quality solutions, complemented by a warming-up process for the heatmap. To demonstrate the flexibility of our approach, we integrate two representative TSP solvers into our framework and conduct a comprehensive comparative analysis against existing algorithms using large TSP benchmark datasets. The results unequivocally demonstrate that our framework efficiently scales existing TSP solvers to handle large instances and consistently outperforms state-of-the-art (SOTA) methods. Furthermore, since our proposed framework does not necessitate additional training or fine-tuning, we believe that its generality can significantly advance research on end-to-end UAVRP solvers, enabling the application of a broader range of methods to real-world scenarios.

arxiv情報

著者 Tao Zhou,Kai Ye,Zeyu Shi,Jiajing Lin,Dejun Xu,Min Jiang
発行日 2024-12-20 03:54:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving

要約

近年、運転ポリシーを学習するための強化学習 (RL) ベースの方法が自動運転コミュニティでますます注目を集めており、さまざまな運転シナリオで目覚ましい進歩を遂げています。
ただし、従来の RL アプローチは手動で設計された報酬に依存しており、これには多大な人間の労力が必要であり、多くの場合一般化可能性に欠けています。
これらの制限に対処するために、事前トレーニングされた視覚言語モデル (VLM) と RL を統合し、画像観察と自然言語の目標を使用して報酬信号を生成する統合フレームワークである \textbf{VLM-RL} を提案します。
VLM-RL の中核は、報酬としての対照的言語目標 (CLG) パラダイムであり、肯定的な言語目標と否定的な言語目標を使用して意味論的な報酬を生成します。
さらに、CLG ベースのセマンティック報酬と車両状態情報を組み合わせた階層型報酬合成アプローチを導入し、報酬の安定性を向上させ、より包括的な報酬信号を提供します。
さらに、トレーニング中の計算効率を最適化するためにバッチ処理技術が採用されています。
CARLA シミュレータでの広範な実験により、VLM-RL が最先端のベースラインを上回っており、衝突率の 10.5% 削減、ルート完了率の 104.6% 増加、およびまだ見たことのない運転シナリオへの強力な一般化を達成していることが実証されています。
さらに、VLM-RL は、ほぼすべての標準的な RL アルゴリズムをシームレスに統合でき、手動の報酬エンジニアリングに依存する既存の RL パラダイムに革命を起こし、継続的なパフォーマンスの向上を可能にする可能性があります。
デモ ビデオとコードには、https://zilin-huang.github.io/VLM-RL-website からアクセスできます。

要約(オリジナル)

In recent years, reinforcement learning (RL)-based methods for learning driving policies have gained increasing attention in the autonomous driving community and have achieved remarkable progress in various driving scenarios. However, traditional RL approaches rely on manually engineered rewards, which require extensive human effort and often lack generalizability. To address these limitations, we propose \textbf{VLM-RL}, a unified framework that integrates pre-trained Vision-Language Models (VLMs) with RL to generate reward signals using image observation and natural language goals. The core of VLM-RL is the contrasting language goal (CLG)-as-reward paradigm, which uses positive and negative language goals to generate semantic rewards. We further introduce a hierarchical reward synthesis approach that combines CLG-based semantic rewards with vehicle state information, improving reward stability and offering a more comprehensive reward signal. Additionally, a batch-processing technique is employed to optimize computational efficiency during training. Extensive experiments in the CARLA simulator demonstrate that VLM-RL outperforms state-of-the-art baselines, achieving a 10.5\% reduction in collision rate, a 104.6\% increase in route completion rate, and robust generalization to unseen driving scenarios. Furthermore, VLM-RL can seamlessly integrate almost any standard RL algorithms, potentially revolutionizing the existing RL paradigm that relies on manual reward engineering and enabling continuous performance improvements. The demo video and code can be accessed at: https://zilin-huang.github.io/VLM-RL-website.

arxiv情報

著者 Zilin Huang,Zihao Sheng,Yansong Qu,Junwei You,Sikai Chen
発行日 2024-12-20 04:08:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

要約

このペーパーでは、四足歩行ビジョン言語アクション (QUAR-VLA) タスクでのマルチモーダル大規模言語モデル (MLLM) の展開に関連する固有の推論レイテンシーの課題に対処します。
私たちの調査により、従来のパラメータ削減手法は最終的にアクション命令の調整段階で言語基礎モデルのパフォーマンスを損ない、この目的には適さないことが明らかになりました。
言語基盤モデルのパフォーマンスを低下させることなく推論効率を向上させるように設計された、QUART-Online と呼ばれる新しいレイテンシのない四足 MLLM モデルを紹介します。
アクション チャンク離散化 (ACD) を組み込むことで、元のアクション表現空間を圧縮し、重要な情報を維持しながら連続アクション値をより小さな離散代表ベクトルのセットにマッピングします。
その後、MLLM を微調整して、視覚、言語、圧縮されたアクションを統一された意味空間に統合します。
実験結果は、QUART-Online が既存の MLLM システムと連携して動作し、基礎となるコントローラー周波数と同期したリアルタイム推論を実現し、さまざまなタスクの成功率を 65\% 大幅に向上させることを示しています。
私たちのプロジェクト ページは \href{https://quart-online.github.io}https://quart-online.github.io です。

要約(オリジナル)

This paper addresses the inherent inference latency challenges associated with deploying multimodal large language models (MLLM) in quadruped vision-language-action (QUAR-VLA) tasks. Our investigation reveals that conventional parameter reduction techniques ultimately impair the performance of the language foundation model during the action instruction tuning phase, making them unsuitable for this purpose. We introduce a novel latency-free quadruped MLLM model, dubbed QUART-Online, designed to enhance inference efficiency without degrading the performance of the language foundation model. By incorporating Action Chunk Discretization (ACD), we compress the original action representation space, mapping continuous action values onto a smaller set of discrete representative vectors while preserving critical information. Subsequently, we fine-tune the MLLM to integrate vision, language, and compressed actions into a unified semantic space. Experimental results demonstrate that QUART-Online operates in tandem with the existing MLLM system, achieving real-time inference in sync with the underlying controller frequency, significantly boosting the success rate across various tasks by 65\%. Our project page is \href{https://quart-online.github.io}https://quart-online.github.io.

arxiv情報

著者 Xinyang Tong,Pengxiang Ding,Donglin Wang,Wenjie Zhang,Can Cui,Mingyang Sun,Yiguo Fan,Han Zhao,Hongyin Zhang,Yonghao Dang,Siteng Huang,Shangke Lyu
発行日 2024-12-20 05:17:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning

要約

画像から点群へのグローバルな位置特定は、GNSS が拒否された環境でのロボットのナビゲーションにとって重要であり、マルチロボットの地図融合や都市資産管理にとってますます重要になっています。
画像と点群との間のモダリティのギャップは、クロスモダリティ融合にとって重大な課題を引き起こします。
現在のクロスモダリティのグローバル ローカライゼーション ソリューションでは、情報損失につながるモダリティの統合が必要であるか、マルチモダリティの特徴をエンコードするために設計されたトレーニング スキームに依存しているため、多くの場合、特徴の位置合わせや関係の一貫性が欠如しています。
これらの制限に対処するために、我々は、顕著性マップを特徴集約に融合し、複数多様体空間上で特徴関係の一貫性を維持する、新しい対照学習ベースのアーキテクチャである SaliencyI2PLoc を提案します。
データマイニングの前処理を軽減するために、クロスモダリティ特徴マッピングを効率的に実現する対照学習フレームワークが適用されます。
コンテキスト顕著性にガイドされたローカル特徴集約モジュールが設計されており、シーン内の定常情報の寄与を最大限に活用して、より代表的なグローバル特徴を生成します。
さらに、対比学習中のクロスモダリティ特徴の調整を強化するために、異なる多様体空間内のサンプル間の相対関係の一貫性も考慮されます。
都市および高速道路のシナリオ データセットに対して行われた実験により、私たちの手法の有効性と堅牢性が実証されました。
具体的には、私たちの手法は都市シナリオ評価データセットで 78.92% の Recall@1 と 97.59% の Recall@20 を達成し、ベースライン手法と比較して 37.35% と 18.07% の改善を示しています。
これは、私たちのアーキテクチャが画像と点群を効率的に融合し、クロスモダリティのグローバル ローカリゼーションにおいて大きな前進を示していることを示しています。
プロジェクトページとコードが公開されます。

要約(オリジナル)

Image to point cloud global localization is crucial for robot navigation in GNSS-denied environments and has become increasingly important for multi-robot map fusion and urban asset management. The modality gap between images and point clouds poses significant challenges for cross-modality fusion. Current cross-modality global localization solutions either require modality unification, which leads to information loss, or rely on engineered training schemes to encode multi-modality features, which often lack feature alignment and relation consistency. To address these limitations, we propose, SaliencyI2PLoc, a novel contrastive learning based architecture that fuses the saliency map into feature aggregation and maintains the feature relation consistency on multi-manifold spaces. To alleviate the pre-process of data mining, the contrastive learning framework is applied which efficiently achieves cross-modality feature mapping. The context saliency-guided local feature aggregation module is designed, which fully leverages the contribution of the stationary information in the scene generating a more representative global feature. Furthermore, to enhance the cross-modality feature alignment during contrastive learning, the consistency of relative relationships between samples in different manifold spaces is also taken into account. Experiments conducted on urban and highway scenario datasets demonstrate the effectiveness and robustness of our method. Specifically, our method achieves a Recall@1 of 78.92% and a Recall@20 of 97.59% on the urban scenario evaluation dataset, showing an improvement of 37.35% and 18.07%, compared to the baseline method. This demonstrates that our architecture efficiently fuses images and point clouds and represents a significant step forward in cross-modality global localization. The project page and code will be released.

arxiv情報

著者 Yuhao Li,Jianping Li,Zhen Dong,Yuan Wang,Bisheng Yang
発行日 2024-12-20 05:20:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

ManiSkill-HAB: A Benchmark for Low-Level Manipulation in Home Rearrangement Tasks

要約

高品質のベンチマークは、具体化された AI 研究の基盤であり、長期的なナビゲーション、操作、および再配置タスクの大幅な進歩を可能にします。
ただし、ロボット工学の最先端のタスクが高度になるにつれて、より高速なシミュレーション速度、より複雑なテスト環境、および大規模なデモンストレーション データセットが必要になります。
この目的を達成するために、低レベルの操作と家庭内オブジェクトの再配置のための総合的なベンチマークである MS-HAB を紹介します。
まず、GPU アクセラレーションによる Home Assistant Benchmark (HAB) の実装を提供します。
現実的な低レベル制御をサポートし、同様の GPU メモリ使用量で以前の魔法の把握実装の 3 倍を超える速度を達成します。
次に、今後の作業で比較できるように、広範な強化学習 (RL) と模倣学習 (IL) のベースラインをトレーニングします。
最後に、ロボットの動作と安全性について事前に定義された基準に一致する RL ポリシーから特定のデモンストレーションをサンプリングする、ルールベースの軌道フィルタリング システムを開発します。
デモンストレーション フィルタリングと当社の高速環境を組み合わせることで、効率的かつ制御された大規模なデータ生成が可能になります。

要約(オリジナル)

High-quality benchmarks are the foundation for embodied AI research, enabling significant advancements in long-horizon navigation, manipulation and rearrangement tasks. However, as frontier tasks in robotics get more advanced, they require faster simulation speed, more intricate test environments, and larger demonstration datasets. To this end, we present MS-HAB, a holistic benchmark for low-level manipulation and in-home object rearrangement. First, we provide a GPU-accelerated implementation of the Home Assistant Benchmark (HAB). We support realistic low-level control and achieve over 3x the speed of previous magical grasp implementations at similar GPU memory usage. Second, we train extensive reinforcement learning (RL) and imitation learning (IL) baselines for future work to compare against. Finally, we develop a rule-based trajectory filtering system to sample specific demonstrations from our RL policies which match predefined criteria for robot behavior and safety. Combining demonstration filtering with our fast environments enables efficient, controlled data generation at scale.

arxiv情報

著者 Arth Shukla,Stone Tao,Hao Su
発行日 2024-12-20 05:21:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

Adaptive Prediction Ensemble: Improving Out-of-Distribution Generalization of Motion Forecasting

要約

自動運転用のディープラーニングベースの軌道予測モデルは、分布外 (OOD) シナリオへの一般化に苦労することが多く、場合によっては単純なルールベースのモデルよりもパフォーマンスが劣ります。
この制限に対処するために、深層学習とルールベースの予測専門家を統合する新しいフレームワークである Adaptive Prediction Ensemble (APE) を提案します。
深層学習モデルと同時にトレーニングされた学習済みルーティング関数は、入力シナリオに基づいて最も信頼性の高い予測を動的に選択します。
Waymo Open Motion Dataset (WOMD) や Argoverse などの大規模なデータセットでの実験では、データセット全体でのゼロショット汎化の改善が実証されました。
特に長期予測や OOD データの割合が高いシナリオにおいて、私たちの方法が個々の予測モデルや他のバリアントよりも優れていることを示します。
この研究は、自動運転における堅牢かつ一般化可能な動作予測に対するハイブリッド アプローチの可能性を強調しています。
詳細については、プロジェクト ページ https://sites.google.com/view/ape-generalization をご覧ください。

要約(オリジナル)

Deep learning-based trajectory prediction models for autonomous driving often struggle with generalization to out-of-distribution (OOD) scenarios, sometimes performing worse than simple rule-based models. To address this limitation, we propose a novel framework, Adaptive Prediction Ensemble (APE), which integrates deep learning and rule-based prediction experts. A learned routing function, trained concurrently with the deep learning model, dynamically selects the most reliable prediction based on the input scenario. Our experiments on large-scale datasets, including Waymo Open Motion Dataset (WOMD) and Argoverse, demonstrate improvement in zero-shot generalization across datasets. We show that our method outperforms individual prediction models and other variants, particularly in long-horizon prediction and scenarios with a high proportion of OOD data. This work highlights the potential of hybrid approaches for robust and generalizable motion prediction in autonomous driving. More details can be found on the project page: https://sites.google.com/view/ape-generalization.

arxiv情報

著者 Jinning Li,Jiachen Li,Sangjae Bae,David Isele
発行日 2024-12-20 05:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

Dexterous Manipulation Based on Prior Dexterous Grasp Pose Knowledge

要約

最近の研究では、器用な操作が大きな注目を集めています。
既存の研究は主に、手の動きの実質的な自由度に対処するための強化学習法に焦点を当ててきました。
それにもかかわらず、これらの方法は通常、効率と精度が低いという問題があります。
この研究では、以前の器用な把握ポーズの知識を活用して効率と精度の両方を向上させる、新しい強化学習アプローチを導入します。
以前の研究とは異なり、ロボットハンドは常に固定された器用な把握ポーズで動作します。操作プロセスを 2 つの異なるフェーズに分離します。最初に、オブジェクトの機能部分を対象とした器用な把握ポーズを生成します。
その後、強化学習を使用して環境を包括的に探索します。
私たちの調査結果は、学習時間の大部分が、適切な初期位置の特定と最適な操作視点の選択に費やされることを示唆しています。
実験結果は、4 つの異なるタスクにわたって学習効率と成功率が大幅に向上したことを示しています。

要約(オリジナル)

Dexterous manipulation has received considerable attention in recent research. Predominantly, existing studies have concentrated on reinforcement learning methods to address the substantial degrees of freedom in hand movements. Nonetheless, these methods typically suffer from low efficiency and accuracy. In this work, we introduce a novel reinforcement learning approach that leverages prior dexterous grasp pose knowledge to enhance both efficiency and accuracy. Unlike previous work, they always make the robotic hand go with a fixed dexterous grasp pose, We decouple the manipulation process into two distinct phases: initially, we generate a dexterous grasp pose targeting the functional part of the object; after that, we employ reinforcement learning to comprehensively explore the environment. Our findings suggest that the majority of learning time is expended in identifying the appropriate initial position and selecting the optimal manipulation viewpoint. Experimental results demonstrate significant improvements in learning efficiency and success rates across four distinct tasks.

arxiv情報

著者 Hengxu Yan,Haoshu Fang,Cewu Lu
発行日 2024-12-20 05:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

EDO-Net: Learning Elastic Properties of Deformable Objects from Graph Dynamics

要約

私たちは、未知の物理的特性に一般化する変形可能なオブジェクトのグラフ ダイナミクスを学習する問題を研究します。
私たちの重要な洞察は、たとえば引っ張る相互作用から抽出できる、布状の変形可能なオブジェクトの弾性物理的特性の潜在的な表現を活用することです。
この論文では、特性のグラウンドトゥルースラベルに依存しない、異なる弾性特性を持つ多種多様なサンプルでトレーニングされたグラフダイナミクスのモデルである EDO-Net (Elastic Deformable Object – Net) を提案します。
EDO-Net は、適応モジュールと順ダイナミクス モジュールを共同で学習します。
前者はオブジェクトの物理的特性の潜在表現を抽出する役割を果たし、後者はその潜在表現を利用して、グラフとして表現された布状オブジェクトの将来の状態を予測します。
私たちは EDO-Net をシミュレーションと現実世界の両方で評価し、1) 未知の物理特性への一般化、2) 学習した表現の新しい下流タスクへの転送の機能を評価します。

要約(オリジナル)

We study the problem of learning graph dynamics of deformable objects that generalizes to unknown physical properties. Our key insight is to leverage a latent representation of elastic physical properties of cloth-like deformable objects that can be extracted, for example, from a pulling interaction. In this paper we propose EDO-Net (Elastic Deformable Object – Net), a model of graph dynamics trained on a large variety of samples with different elastic properties that does not rely on ground-truth labels of the properties. EDO-Net jointly learns an adaptation module, and a forward-dynamics module. The former is responsible for extracting a latent representation of the physical properties of the object, while the latter leverages the latent representation to predict future states of cloth-like objects represented as graphs. We evaluate EDO-Net both in simulation and real world, assessing its capabilities of: 1) generalizing to unknown physical properties, 2) transferring the learned representation to new downstream tasks.

arxiv情報

著者 Alberta Longhini,Marco Moletta,Alfredo Reichlin,Michael C. Welle,David Held,Zackory Erickson,Danica Kragic
発行日 2024-12-20 08:00:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする