ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning

要約

ロボット学習は、柔軟な操作や正確な相互作用などの複雑な能力を進めるためにシミュレーションにますます依存しているため、SIMからリアルのギャップを埋めるために高品質のデジタル資産を必要とします。
ただし、シミュレーションのための既存のオープンソースの明確なオブジェクトデータセットは、視覚的リアリズムが不十分であり、物理的な忠実度が低く、現実世界でロボットタスクをマスターするモデルのトレーニングの有用性を妨げます。
これらの課題に対処するために、高品質のデジタルツインアーティキュレートオブジェクトを含む包括的なオープンソースデータセットであるArtVipを紹介します。
統一された基準を順守するプロフェッショナルな3Dモデラーが作成したArtVIPは、正確な幾何学的メッシュと高解像度テクスチャを介して視覚的リアリズムを保証しますが、物理的な忠実度は微調整された動的パラメーターを介して達成されます。
一方、データセットの先駆者は、資産内およびピクセルレベルのアフォーダンス注釈内にモジュラー相互作用行動を組み込みました。
機能マップの視覚化と光学モーションキャプチャを採用して、ARTVIPの視覚的および物理的な忠実度を定量的に実証し、その適用性が模倣学習と強化学習実験全体で検証されています。
詳細な制作ガイドラインを使用してUSD形式で提供されるArtVIPは、完全にオープンソースであり、研究コミュニティに利益をもたらし、ロボット学習研究を進めています。
私たちのプロジェクトはhttps://x-humanoid-artvip.github.io/にあります。

要約(オリジナル)

Robot learning increasingly relies on simulation to advance complex ability such as dexterous manipulations and precise interactions, necessitating high-quality digital assets to bridge the sim-to-real gap. However, existing open-source articulated-object datasets for simulation are limited by insufficient visual realism and low physical fidelity, which hinder their utility for training models mastering robotic tasks in real world. To address these challenges, we introduce ArtVIP, a comprehensive open-source dataset comprising high-quality digital-twin articulated objects, accompanied by indoor-scene assets. Crafted by professional 3D modelers adhering to unified standards, ArtVIP ensures visual realism through precise geometric meshes and high-resolution textures, while physical fidelity is achieved via fine-tuned dynamic parameters. Meanwhile, the dataset pioneers embedded modular interaction behaviors within assets and pixel-level affordance annotations. Feature-map visualization and optical motion capture are employed to quantitatively demonstrate ArtVIP’s visual and physical fidelity, with its applicability validated across imitation learning and reinforcement learning experiments. Provided in USD format with detailed production guidelines, ArtVIP is fully open-source, benefiting the research community and advancing robot learning research. Our project is at https://x-humanoid-artvip.github.io/ .

arxiv情報

著者 Zhao Jin,Zhengping Che,Zhen Zhao,Kun Wu,Yuheng Zhang,Yinuo Zhao,Zehui Liu,Qiang Zhang,Xiaozhu Ju,Jing Tian,Yousong Xue,Jian Tang
発行日 2025-06-06 03:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning はコメントを受け付けていません

ECoRAG: Evidentiality-guided Compression for Long Context RAG

要約

大規模な言語モデル(LLMS)は、検索された生成(RAG)を通じて外部ドキュメントを活用することにより、オープンドメイン質問応答(ODQA)の顕著なパフォーマンスを示しています。
より長いコンテキストから、ぼろきれのオーバーヘッドを減らすには、コンテキスト圧縮が必要です。
ただし、以前の圧縮方法では、LLMベースのRAGのパフォーマンスを制限する非自明情報の除外に焦点を当てていません。
したがって、私たちは証拠誘導ぼろきれ、またはecoragフレームワークを提案します。
Ecoragは、証拠に基づいて検索されたドキュメントを圧縮し、回答生成が正しい証拠によってサポートされているかどうかを確認することにより、LLMのパフォーマンスを向上させます。
追加のステップとして、Ecoragは圧縮コンテンツが十分な証拠を提供するかどうかを反映しており、そうでない場合は、十分になるまでさらに検索します。
実験は、EcoragがODQAタスクのLLMパフォーマンスを改善し、既存の圧縮方法を上回ることを示しています。
さらに、ecoragは潜時を減らすだけでなく、正しい答えを生成するために必要な情報のみを保持することでトークンの使用を最小限に抑えるため、非常に費用対効率が高くなります。
コードはhttps://github.com/ldilab/ecoragで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable performance in Open-Domain Question Answering (ODQA) by leveraging external documents through Retrieval-Augmented Generation (RAG). To reduce RAG overhead, from longer context, context compression is necessary. However, prior compression methods do not focus on filtering out non-evidential information, which limit the performance in LLM-based RAG. We thus propose Evidentiality-guided RAG, or ECoRAG framework. ECoRAG improves LLM performance by compressing retrieved documents based on evidentiality, ensuring whether answer generation is supported by the correct evidence. As an additional step, ECoRAG reflects whether the compressed content provides sufficient evidence, and if not, retrieves more until sufficient. Experiments show that ECoRAG improves LLM performance on ODQA tasks, outperforming existing compression methods. Furthermore, ECoRAG is highly cost-efficient, as it not only reduces latency but also minimizes token usage by retaining only the necessary information to generate the correct answer. Code is available at https://github.com/ldilab/ECoRAG.

arxiv情報

著者 Yeonseok Jeong,Jinsu Kim,Dohyeon Lee,Seung-won Hwang
発行日 2025-06-06 07:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | ECoRAG: Evidentiality-guided Compression for Long Context RAG はコメントを受け付けていません

Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective

要約

大規模な言語モデル(LLM)は、多くの場合、訓練されているデータの結果として、社会的、人口統計学的、性別バイアスを示すことが知られています。
この作業では、GPT-2やLlama2などのモデル内で、そのようなバイアスがどのように構造的に表現されるかを分析するために、機械的解釈可能性アプローチを採用します。
人口統計学的および性別のバイアスに焦点を当て、さまざまな指標を探り、偏った動作の原因となる内部エッジを特定します。
次に、データセットと言語のバリエーション全体のこれらのコンポーネントの安定性、ローカリゼーション、および一般化可能性を評価します。
体系的なアブレーションを通じて、バイアス関連の計算は高度に局所化されており、多くの場合、層の小さなサブセットに集中していることを実証します。
さらに、特定されたコンポーネントは、バイアスとは関係のないものを含む微調整設定全体で変化します。
最後に、これらのコンポーネントを削除すると、偏った出力が減少するだけでなく、これらのタスクと重要なコンポーネントを共有するために、名前付きエンティティ認識や言語の受け入れ可能性判断など、他のNLPタスクにも影響することが示されます。

要約(オリジナル)

Large Language Models (LLMs) are known to exhibit social, demographic, and gender biases, often as a consequence of the data on which they are trained. In this work, we adopt a mechanistic interpretability approach to analyze how such biases are structurally represented within models such as GPT-2 and Llama2. Focusing on demographic and gender biases, we explore different metrics to identify the internal edges responsible for biased behavior. We then assess the stability, localization, and generalizability of these components across dataset and linguistic variations. Through systematic ablations, we demonstrate that bias-related computations are highly localized, often concentrated in a small subset of layers. Moreover, the identified components change across fine-tuning settings, including those unrelated to bias. Finally, we show that removing these components not only reduces biased outputs but also affects other NLP tasks, such as named entity recognition and linguistic acceptability judgment because of the sharing of important components with these tasks.

arxiv情報

著者 Bhavik Chandna,Zubair Bashir,Procheta Sen
発行日 2025-06-06 01:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective はコメントを受け付けていません

Revisiting 3D LLM Benchmarks: Are We Really Testing 3D Capabilities?

要約

この作業では、3D LLM評価における「2Dチーティング」問題を特定します。ここでは、これらのタスクは、ポイントクラウドのレンダリングされた画像を使用してVLMSによって簡単に解決され、3D LLMSのユニークな3D機能の効果的な評価を公開します。
複数の3D LLMベンチマークにわたってVLMパフォーマンスをテストし、これを参照として使用して、本物の3D理解をより適切に評価するための原則を提案します。
また、3D LLMを評価する際に、3D能力を1Dまたは2Dの側面から明示的に分離することも提唱しています。
コードとデータは、https://github.com/llm-class-group/revisiting-3d-llm-benchmarksで入手できます

要約(オリジナル)

In this work, we identify the ‘2D-Cheating’ problem in 3D LLM evaluation, where these tasks might be easily solved by VLMs with rendered images of point clouds, exposing ineffective evaluation of 3D LLMs’ unique 3D capabilities. We test VLM performance across multiple 3D LLM benchmarks and, using this as a reference, propose principles for better assessing genuine 3D understanding. We also advocate explicitly separating 3D abilities from 1D or 2D aspects when evaluating 3D LLMs. Code and data are available at https://github.com/LLM-class-group/Revisiting-3D-LLM-Benchmarks

arxiv情報

著者 Jiahe Jin,Yanheng He,Mingyan Yang
発行日 2025-06-06 01:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Revisiting 3D LLM Benchmarks: Are We Really Testing 3D Capabilities? はコメントを受け付けていません

Just Enough Thinking: Efficient Reasoning with Adaptive Length Penalties Reinforcement Learning

要約

大きな推論モデル(LRMS)は、推論時により多くのトークンを生成することにより、挑戦的な推論タスクでより高いパフォーマンスを実現しますが、この冗長性はしばしば簡単な問題について計算を無駄にします。
短いトレースでの監視された微調整、ユーザー制御予算、または均一なペナルティを備えたRLを含む既存のソリューションには、データキュレーション、手動構成、またはすべての問題を難易度に関係なく同様に扱う必要があります。
Adaptive Length Penalty(ALP)を導入します。これは、強化学習目標の合わせた生成長に合わせて解決速度を導入します。
トレーニング中、ALPはそれぞれのプロンプトのオンラインを複数のロールアウトを介して監視し、そのレートと反比例する大きさのスケールを追加する差別的なペナルティを追加します。
ALPを備えたポストトレーニングDeepScaler-1.5Bは、パフォーマンスを大幅に低下させることなく、平均トークンの使用量を50 \%削減します。
固定予算と均一なペナルティベースラインと比較して、ALPは、簡単なプロンプトで計算を削減し、保存されたトークンを困難なトークンに再割り当てすることにより、予算をよりインテリジェントに再配置し、より高いコストで最も難しい問題でより高い精度を提供します。

要約(オリジナル)

Large reasoning models (LRMs) achieve higher performance on challenging reasoning tasks by generating more tokens at inference time, but this verbosity often wastes computation on easy problems. Existing solutions, including supervised finetuning on shorter traces, user-controlled budgets, or RL with uniform penalties, either require data curation, manual configuration, or treat all problems alike regardless of difficulty. We introduce Adaptive Length Penalty (ALP), a reinforcement learning objective tailoring generation length to per-prompt solve rate. During training, ALP monitors each prompt’s online solve rate through multiple rollouts and adds a differentiable penalty whose magnitude scales inversely with that rate, so confident (easy) prompts incur a high cost for extra tokens while hard prompts remain unhindered. Posttraining DeepScaleR-1.5B with ALP cuts average token usage by 50\% without significantly dropping performance. Relative to fixed-budget and uniform penalty baselines, ALP redistributes its reduced budget more intelligently by cutting compute on easy prompts and reallocating saved tokens to difficult ones, delivering higher accuracy on the hardest problems with higher cost.

arxiv情報

著者 Violet Xiang,Chase Blagden,Rafael Rafailov,Nathan Lile,Sang Truong,Chelsea Finn,Nick Haber
発行日 2025-06-06 02:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Just Enough Thinking: Efficient Reasoning with Adaptive Length Penalties Reinforcement Learning はコメントを受け付けていません

Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs

要約

2Dビジョン言語モデル(VLMS)の顕著な進歩は、3D質問応答、密度の高いキャプション、視覚的接地などのタスクの3D設定に拡張することに関心を抱いています。
通常、画像エンコーダーを介して画像を処理する2D VLMとは異なり、複雑な空間構造を備えた3Dシーンでは、多様なモデルアーキテクチャを可能にします。
エンコーダー設計に基づいて、このペーパーでは、最近の3D VLMを3Dオブジェクト中心の2D画像ベース、および3Dシーン中心のアプローチに分類します。
3Dシーン中心のVLMが2D対応物とのアーキテクチャの類似性にもかかわらず、最新の3Dオブジェクト中心および2D画像ベースのアプローチと比較して、比較的低いパフォーマンスを示しています。
このギャップを理解するために、詳細な分析を実施し、3Dシーン中心のVLMSが3Dシーンエンコーダーへの依存度が限られていることを明らかにし、トレイン前のステージは2D VLMSよりも効果が低いようです。
さらに、データスケーリングの利点は、より大きなデータセットではあまり顕著ではないことがわかります。
私たちの調査によると、これらのモデルはクロスモーダルアライメント機能を持っていますが、頻繁な回答分布に対して言語的手がかりと過剰に依存する傾向があり、それにより3Dエンコーダーの効果的な利用が減少することが示唆されています。
これらの制限に対処し、本物の3Dシーンの理解を奨励するために、ショートカット学習を混乱させ、3D理解を改善するために設計された新しい3D関連性識別QAデータセットを導入します。
私たちの調査結果は、3D VLMSでの3D理解を改善するための高度な評価と改善された戦略の必要性を強調しています。

要約(オリジナル)

Remarkable progress in 2D Vision-Language Models (VLMs) has spurred interest in extending them to 3D settings for tasks like 3D Question Answering, Dense Captioning, and Visual Grounding. Unlike 2D VLMs that typically process images through an image encoder, 3D scenes, with their intricate spatial structures, allow for diverse model architectures. Based on their encoder design, this paper categorizes recent 3D VLMs into 3D object-centric, 2D image-based, and 3D scene-centric approaches. Despite the architectural similarity of 3D scene-centric VLMs to their 2D counterparts, they have exhibited comparatively lower performance compared with the latest 3D object-centric and 2D image-based approaches. To understand this gap, we conduct an in-depth analysis, revealing that 3D scene-centric VLMs show limited reliance on the 3D scene encoder, and the pre-train stage appears less effective than in 2D VLMs. Furthermore, we observe that data scaling benefits are less pronounced on larger datasets. Our investigation suggests that while these models possess cross-modal alignment capabilities, they tend to over-rely on linguistic cues and overfit to frequent answer distributions, thereby diminishing the effective utilization of the 3D encoder. To address these limitations and encourage genuine 3D scene understanding, we introduce a novel 3D Relevance Discrimination QA dataset designed to disrupt shortcut learning and improve 3D understanding. Our findings highlight the need for advanced evaluation and improved strategies for better 3D understanding in 3D VLMs.

arxiv情報

著者 Haoyuan Li,Yanpeng Zhou,Yufei Gao,Tao Tang,Jianhua Han,Yujie Yuan,Dave Zhenyu Chen,Jiawang Bian,Hang Xu,Xiaodan Liang
発行日 2025-06-06 07:09:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs はコメントを受け付けていません

High-Dimensional Independence Testing via Maximum and Average Distance Correlations

要約

このペーパーでは、多変量独立性テストの最大距離相関と平均距離相関の利用を調査します。
わずかに依存する寸法の数に関して高次元設定でそれらの一貫性特性を特徴付け、各テスト統計の利点を比較し、それぞれのヌル分布を調べ、高速カイ二乗ベースのテスト手順を提示します。
結果のテストはノンパラメトリックであり、ユークリッド距離とガウスカーネルの両方に基礎となるメトリックとして適用されます。
提案されたテストの実際のユースケースをよりよく理解するために、最大距離相関、平均距離相関、およびさまざまな多変量依存シナリオにわたる元の距離相関の経験的パフォーマンスを評価し、ヒト血漿中のさまざまな癌タイプとペプチドレベルの存在をテストするための実際のデータ実験を実施します。

要約(オリジナル)

This paper investigates the utilization of maximum and average distance correlations for multivariate independence testing. We characterize their consistency properties in high-dimensional settings with respect to the number of marginally dependent dimensions, compare the advantages of each test statistic, examine their respective null distributions, and present a fast chi-square-based testing procedure. The resulting tests are non-parametric and applicable to both Euclidean distance and the Gaussian kernel as the underlying metric. To better understand the practical use cases of the proposed tests, we evaluate the empirical performance of the maximum distance correlation, average distance correlation, and the original distance correlation across various multivariate dependence scenarios, as well as conduct a real data experiment to test the presence of various cancer types and peptide levels in human plasma.

arxiv情報

著者 Cencheng Shen,Yuexiao Dong
発行日 2025-06-05 17:35:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | High-Dimensional Independence Testing via Maximum and Average Distance Correlations はコメントを受け付けていません

Online Adaptation of Terrain-Aware Dynamics for Planning in Unstructured Environments

要約

リモートで構造化されていない環境で動作する自律モバイルロボットは、動作中に急速に変化する可能性のある新しい予測不可能な地形に適応する必要があります。
このようなシナリオでは、重要な課題は、信頼できる正確なナビゲーションと計画を可能にするために、地形の変化に関するロボットのダイナミクスを推定することになります。
関数エンコーダーを使用して、地形を意識したダイナミクスモデリングと計画のための新しいオンライン適応アプローチを紹介します。
当社のアプローチは、再訓練や微調整なしで限られたオンラインデータを使用して、実行時に新しい地形に効率的に適応します。
多様な地形のロボットダイナミクスにまたがる一連のニューラルネットワーク基底関数を学習することにより、単純な最小二乗計算として、新しい、目に見えない地形と環境への迅速なオンライン適応を可能にします。
UnityベースのRobotics Simulatorでの地形適応のアプローチを実証し、学習モデルの精度が高いため、下流のコントローラーがより良い経験的パフォーマンスを持っていることを示しています。
これにより、神経オードベースラインと比較して、乱雑な環境でナビゲートしながら、障害物との衝突が少なくなります。

要約(オリジナル)

Autonomous mobile robots operating in remote, unstructured environments must adapt to new, unpredictable terrains that can change rapidly during operation. In such scenarios, a critical challenge becomes estimating the robot’s dynamics on changing terrain in order to enable reliable, accurate navigation and planning. We present a novel online adaptation approach for terrain-aware dynamics modeling and planning using function encoders. Our approach efficiently adapts to new terrains at runtime using limited online data without retraining or fine-tuning. By learning a set of neural network basis functions that span the robot dynamics on diverse terrains, we enable rapid online adaptation to new, unseen terrains and environments as a simple least-squares calculation. We demonstrate our approach for terrain adaptation in a Unity-based robotics simulator and show that the downstream controller has better empirical performance due to higher accuracy of the learned model. This leads to fewer collisions with obstacles while navigating in cluttered environments as compared to a neural ODE baseline.

arxiv情報

著者 William Ward,Sarah Etter,Tyler Ingebrand,Christian Ellis,Adam J. Thorpe,Ufuk Topcu
発行日 2025-06-04 22:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Online Adaptation of Terrain-Aware Dynamics for Planning in Unstructured Environments はコメントを受け付けていません

‘Don’t Do That!’: Guiding Embodied Systems through Large Language Model-based Constraint Generation

要約

大規模な言語モデル(LLMS)の最近の進歩は、自然言語から計画問題への複雑な空間的、数学的、条件付き制約を組み込んだロボットナビゲーションへの関心を促しました。
このような制約は非公式でありながら非常に複雑である可能性があり、計画アルゴリズムに渡すことができる正式な説明に変換することが困難です。
このホワイトペーパーでは、LLMSを使用して制約(「何をしないか」の指示として表される)を実行可能なPython関数に変換する制約生成フレームワークであるSTPRを提案します。
STPRは、LLMの強力なコーディング機能を活用して、問題の説明を言語から構造化された透明コードにシフトし、複雑な推論を回避し、潜在的な幻覚を回避します。
これらのLLMで生成された関数は、複雑な数学的制約でさえ正確に記述し、従来の検索アルゴリズムを使用してクラウド表現をポイントに適用することを示します。
シミュレートされたガゼボ環境での実験は、STPRがいくつかの制約とシナリオにわたって完全なコンプライアンスを保証することを示しています。
また、STPRはより小さくコード固有のLLMで使用できるようにして、低推論コストで幅広いコンパクトモデルに適用できるようにすることも確認します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have spurred interest in robotic navigation that incorporates complex spatial, mathematical, and conditional constraints from natural language into the planning problem. Such constraints can be informal yet highly complex, making it challenging to translate into a formal description that can be passed on to a planning algorithm. In this paper, we propose STPR, a constraint generation framework that uses LLMs to translate constraints (expressed as instructions on “what not to do”) into executable Python functions. STPR leverages the LLM’s strong coding capabilities to shift the problem description from language into structured and transparent code, thus circumventing complex reasoning and avoiding potential hallucinations. We show that these LLM-generated functions accurately describe even complex mathematical constraints, and apply them to point cloud representations with traditional search algorithms. Experiments in a simulated Gazebo environment show that STPR ensures full compliance across several constraints and scenarios, while having short runtimes. We also verify that STPR can be used with smaller, code-specific LLMs, making it applicable to a wide range of compact models at low inference cost.

arxiv情報

著者 Aladin Djuhera,Amin Seffo,Masataro Asai,Holger Boche
発行日 2025-06-04 22:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | ‘Don’t Do That!’: Guiding Embodied Systems through Large Language Model-based Constraint Generation はコメントを受け付けていません

SGN-CIRL: Scene Graph-based Navigation with Curriculum, Imitation, and Reinforcement Learning

要約

3Dシーングラフは、オブジェクト間の空間的関係をモデル化し、エージェントが部分的に観察可能な環境で効率的にナビゲートし、ターゲットオブジェクトの位置を予測できるようにします。
強化学習ベースのアルゴリズムのトレーニングを加速して安定させるために、フレームワークは模倣学習とカリキュラム学習も採用しています。
最初のものにより、エージェントはデモンストレーションから学習できますが、2番目のものは、単純なシナリオからより高度なシナリオに徐々にタスクの複雑さを高めることでトレーニングプロセスを構成します。
ISAAC SIM環境で実施された数値実験により、補強学習のために3Dシーングラフを使用すると、困難なナビゲーションの場合の成功率が大幅に増加することが示されました。
コードはオープンソースで、https://github.com/xisonik/aloha\_graphで入手できます。

要約(オリジナル)

The 3D scene graph models spatial relationships between objects, enabling the agent to efficiently navigate in a partially observable environment and predict the location of the target object.This paper proposes an original framework named SGN-CIRL (3D Scene Graph-Based Reinforcement Learning Navigation) for mapless reinforcement learning-based robot navigation with learnable representation of open-vocabulary 3D scene graph. To accelerate and stabilize the training of reinforcement learning-based algorithms, the framework also employs imitation learning and curriculum learning. The first one enables the agent to learn from demonstrations, while the second one structures the training process by gradually increasing task complexity from simple to more advanced scenarios. Numerical experiments conducted in the Isaac Sim environment showed that using a 3D scene graph for reinforcement learning significantly increased the success rate in difficult navigation cases. The code is open-sourced and available at: https://github.com/Xisonik/Aloha\_graph.

arxiv情報

著者 Nikita Oskolkov,Huzhenyu Zhang,Dmitry Makarov,Dmitry Yudin,Aleksandr Panov
発行日 2025-06-04 23:09:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | SGN-CIRL: Scene Graph-based Navigation with Curriculum, Imitation, and Reinforcement Learning はコメントを受け付けていません