DYNUS: Uncertainty-aware Trajectory Planner in Dynamic Unknown Environments

要約

このペーパーでは、動的未知の環境向けに設計された不確実な軌跡プランナーであるDynusを紹介します。
このような設定での動作には多くの課題があります。最も顕著なのは、エージェントが障害物の根底にある真実の将来の経路を予測できないため、以前に計画されていた軌道はいつでも安全ではないため、衝突を回避するために迅速な再生を必要とします。
最近開発されたプランナーは、ソフトコントラリングアプローチを使用して、必要な高速計算時間を達成しました。
ただし、これらの方法は、静的な障害物があっても衝突のないパスを保証するものではありません。
対照的に、ハードコンストラリング方法は衝突のない安全性を確保しますが、通常は計算時間が長くなります。
これらの問題に対処するために、3つの重要な貢献を提案します。
第一に、Dynusグローバルプランナー(DGP)と時間的安全回廊の生成は、時空間空間で動作し、3D環境の静的障害と動的障害物の両方を処理します。
第二に、安全な計画フレームワークは、動的障害との潜在的な将来の衝突が検出された場合に、探索的、安全、および偶発性の軌跡の組み合わせを活用して柔軟に再ルーティングします。
最後に、高速で固定されたローカル軌道定式化は、可変除去アプローチを使用して問題のサイズを縮小し、自由変数と従属変数の間の依存関係を事前に計算することにより、衝突のない軌跡を確保することにより、より速い計算を可能にします。
密な森林、限られたオフィススペース、洞窟システム、動的環境など、さまざまなシミュレーションでDynusを評価しました。
私たちの実験は、Dynusが100%の成功率と、最先端の方法よりも約25.0%高速な移動時間を達成することを示しています。
また、シミュレーションとハードウェアの両方の実験で、四足動物、車輪付きロボット、および四足動物の複数のプラットフォームでDynusを評価しました。

要約(オリジナル)

This paper introduces DYNUS, an uncertainty-aware trajectory planner designed for dynamic unknown environments. Operating in such settings presents many challenges — most notably, because the agent cannot predict the ground-truth future paths of obstacles, a previously planned trajectory can become unsafe at any moment, requiring rapid replanning to avoid collisions. Recently developed planners have used soft-constraint approaches to achieve the necessary fast computation times; however, these methods do not guarantee collision-free paths even with static obstacles. In contrast, hard-constraint methods ensure collision-free safety, but typically have longer computation times. To address these issues, we propose three key contributions. First, the DYNUS Global Planner (DGP) and Temporal Safe Corridor Generation operate in spatio-temporal space and handle both static and dynamic obstacles in the 3D environment. Second, the Safe Planning Framework leverages a combination of exploratory, safe, and contingency trajectories to flexibly re-route when potential future collisions with dynamic obstacles are detected. Finally, the Fast Hard-Constraint Local Trajectory Formulation uses a variable elimination approach to reduce the problem size and enable faster computation by pre-computing dependencies between free and dependent variables while still ensuring collision-free trajectories. We evaluated DYNUS in a variety of simulations, including dense forests, confined office spaces, cave systems, and dynamic environments. Our experiments show that DYNUS achieves a success rate of 100% and travel times that are approximately 25.0% faster than state-of-the-art methods. We also evaluated DYNUS on multiple platforms — a quadrotor, a wheeled robot, and a quadruped — in both simulation and hardware experiments.

arxiv情報

著者 Kota Kondo,Mason Peterson,Nicholas Rober,Juan Rached Viso,Lucas Jia,Jialin Chen,Harvey Merton,Jonathan P. How
発行日 2025-04-24 14:23:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DYNUS: Uncertainty-aware Trajectory Planner in Dynamic Unknown Environments はコメントを受け付けていません

Simple Graph Contrastive Learning via Fractional-order Neural Diffusion Networks

要約

グラフ対照学習(GCL)は最近、監視されていないグラフ表現学習パラダイムとして進歩しました。
GCLアプローチは、増強に基づいた、拡張なしの方法に分類できます。
前者は複雑なデータ増強に依存していますが、後者は同じ入力の明確なビューを生成できるエンコーダーに依存します。
どちらのアプローチでも、トレーニングのために負のサンプルが必要になる場合があります。
この論文では、グラフ神経拡散モデルに基づいて、新しい増強のないGCLフレームワークを紹介します。
具体的には、分数微分方程式(FDE)によって管理される学習可能なエンコーダーを利用します。
各FDEは、微分演算子の順序パラメーターによって特徴付けられます。
これらのパラメーターを変化させることで、対照的な学習のために、ローカルまたはグローバル情報をキャプチャして、多様なビューを生成する学習可能なエンコーダーを作成できることを実証します。
私たちのモデルは、トレーニングに負のサンプルを必要とせず、同性愛と異種のデータセットの両方に適用できます。
さまざまなデータセット全体でその有効性を実証し、最先端のパフォーマンスを達成します。

要約(オリジナル)

Graph Contrastive Learning (GCL) has recently made progress as an unsupervised graph representation learning paradigm. GCL approaches can be categorized into augmentation-based and augmentation-free methods. The former relies on complex data augmentations, while the latter depends on encoders that can generate distinct views of the same input. Both approaches may require negative samples for training. In this paper, we introduce a novel augmentation-free GCL framework based on graph neural diffusion models. Specifically, we utilize learnable encoders governed by Fractional Differential Equations (FDE). Each FDE is characterized by an order parameter of the differential operator. We demonstrate that varying these parameters allows us to produce learnable encoders that generate diverse views, capturing either local or global information, for contrastive learning. Our model does not require negative samples for training and is applicable to both homophilic and heterophilic datasets. We demonstrate its effectiveness across various datasets, achieving state-of-the-art performance.

arxiv情報

著者 Yanan Zhao,Feng Ji,Kai Zhao,Xuhao Li,Qiyu Kang,Wenfei Liang,Yahya Alkhatib,Xingchao Jian,Wee Peng Tay
発行日 2025-04-24 14:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Simple Graph Contrastive Learning via Fractional-order Neural Diffusion Networks はコメントを受け付けていません

Exploring How LLMs Capture and Represent Domain-Specific Knowledge

要約

大規模な言語モデル(LLM)が自然言語でドメイン固有のニュアンスを本質的にキャプチャするかどうかを研究します。
私たちの実験は、Prefillフェーズで生成された隠された状態を使用して、クエリを異なるドメインと区別する能力を調べることにより、LLMのドメイン感度を調査します。
モデルのクエリドメインの内部認識を示す潜在ドメイン関連の軌跡を明らかにします。
また、これらのドメイン表現の堅牢性を、迅速なスタイルとソースのバリエーションに研究します。
私たちのアプローチは、モデル選択のためにこれらの表現を活用し、入力クエリのドメイントレースに最適なLLMをマッピングします(つまり、同様のトレースで最高のパフォーマンスを持つモデル)。
私たちの調査結果は、LLMが関連ドメインのクエリを区別できること、および微調整されたモデルが常に最も正確ではないことを示しています。
以前の作業とは異なり、私たちの解釈は閉鎖的な生成タスクとオープンエンド生成タスクの両方に適用されます

要約(オリジナル)

We study whether Large Language Models (LLMs) inherently capture domain-specific nuances in natural language. Our experiments probe the domain sensitivity of LLMs by examining their ability to distinguish queries from different domains using hidden states generated during the prefill phase. We reveal latent domain-related trajectories that indicate the model’s internal recognition of query domains. We also study the robustness of these domain representations to variations in prompt styles and sources. Our approach leverages these representations for model selection, mapping the LLM that best matches the domain trace of the input query (i.e., the model with the highest performance on similar traces). Our findings show that LLMs can differentiate queries for related domains, and that the fine-tuned model is not always the most accurate. Unlike previous work, our interpretations apply to both closed and open-ended generative tasks

arxiv情報

著者 Mirian Hipolito Garcia,Camille Couturier,Daniel Madrigal Diaz,Ankur Mallick,Anastasios Kyrillidis,Robert Sim,Victor Ruhle,Saravan Rajmohan
発行日 2025-04-24 15:21:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Exploring How LLMs Capture and Represent Domain-Specific Knowledge はコメントを受け付けていません

Fast Online Adaptive Neural MPC via Meta-Learning

要約

データ駆動型モデル予測制御(MPC)は、モデルの不確実性の存在下でロボット制御性能を改善する重要な可能性を実証しています。
ただし、既存のアプローチでは、広範なオフラインデータ収集と計算集中トレーニングが必要であることが多く、オンラインで適応する能力が制限されます。
これらの課題に対処するために、このペーパーでは、モデルに依存しないメタラーニング(MAML)と統合されたニューラルネットワークを活用する高速オンライン適応MPCフレームワークを紹介します。
私たちのアプローチは、最小限のオンラインデータとグラデーションステップを使用して、公称システムの動作と真のシステム動作の矛盾を捉える残留ダイナミクスの少数のショット適応に焦点を当てています。
これらのメタ学習された残差モデルを計算効率の良いL4CasadiベースのMPCパイプラインに埋め込むことにより、提案された方法により、迅速なモデル補正が可能になり、予測精度が向上し、リアルタイムの制御パフォーマンスが向上します。
ファンデルポールオシレーター、カートポールシステム、および2D四角体に関するシミュレーション研究を通じてフレームワークを検証します。
結果は、新たに初期化されたニューラルネットワークで拡張された、名目MPCと公称MPCの両方にわたって適応速度と予測精度が大幅に向上し、リアルタイム適応ロボット制御のアプローチの有効性を強調しています。

要約(オリジナル)

Data-driven model predictive control (MPC) has demonstrated significant potential for improving robot control performance in the presence of model uncertainties. However, existing approaches often require extensive offline data collection and computationally intensive training, limiting their ability to adapt online. To address these challenges, this paper presents a fast online adaptive MPC framework that leverages neural networks integrated with Model-Agnostic Meta-Learning (MAML). Our approach focuses on few-shot adaptation of residual dynamics – capturing the discrepancy between nominal and true system behavior – using minimal online data and gradient steps. By embedding these meta-learned residual models into a computationally efficient L4CasADi-based MPC pipeline, the proposed method enables rapid model correction, enhances predictive accuracy, and improves real-time control performance. We validate the framework through simulation studies on a Van der Pol oscillator, a Cart-Pole system, and a 2D quadrotor. Results show significant gains in adaptation speed and prediction accuracy over both nominal MPC and nominal MPC augmented with a freshly initialized neural network, underscoring the effectiveness of our approach for real-time adaptive robot control.

arxiv情報

著者 Yu Mei,Xinyu Zhou,Shuyang Yu,Vaibhav Srivastava,Xiaobo Tan
発行日 2025-04-24 01:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Fast Online Adaptive Neural MPC via Meta-Learning はコメントを受け付けていません

LaMsS: When Large Language Models Meet Self-Skepticism

要約

幻覚は、大規模な言語モデル(LLMS)にとって大きな課題であり、一部の分野でのさらなる適用を妨げます。
人類の懐疑的な思考は、LLMが自己認知、自己反省、および幻覚を軽減するために役立つ可能性があります。
この考慮事項に触発されて、LLMSのセマンティック理解能力と自己懐疑論を組み合わせたLamssと呼ばれる新しいアプローチを提案します。
一連の懐疑的なトークンを導入し、それらを語彙に拡張することにより、関連性と微調整の両方を実施します。これにより、LLMはそれぞれの通常のトークンを解読し、その後に懐疑的なトークンが続き、異なる懐疑論レベルを表します。
クエリを与えられた応答の懐疑論を計算することにより、しきい値よりも比較的低い懐疑論的レベルでのみ答えようとする新しい自己認識LLMを定義できます。
精度、AUC、APを喜んで回答するAPを調べることにより、LAMSは、マルチ選択の質問とオープンドメインの質問ベンチマークの両方でベースラインよりも優れたパフォーマンスを達成し、マルチタスクおよびドメイン外の設定に一般化できることを実証します。
私たちの研究は、さらなる人工知能に関する自己懐疑論のモデリングにいくつかの光を当てています。
プロジェクトコードとモデルのチェックポイントは、https://anonymous.4open.science/r/SM-1E76にあります。

要約(オリジナル)

Hallucination is a major challenge for large language models (LLMs), preventing their further application in some fields. The skeptical thinking of humankind could be useful for LLMs to self-cognition, self-reflection and alleviate their hallucinations. Inspired by this consideration, we propose a novel approach called LaMsS, which combines the semantic understanding capability of LLMs with self-skepticism. By introducing a series of skepticism tokens and augmenting them into the vocabulary, we conduct both pertaining and finetuning, which allow the LLM to decode each normal token followed by a skeptical token, representing different skepticism levels. By calculating the response skepticism given a query, one can define a new self-aware LLM which is only willing to answer with relative lower skepticism level than the threshold. By examining the accuracy, AUC and AP of willingly answering questions, we demonstrate that LaMsS achieves better performance than baselines on both multi-choice questions and open-domain question-answering benchmarks, and can generalize to multi-task and out-of-domain settings. Our study sheds some lights on the self-skepticism modeling on further artificial intelligence. Project code and model checkpoints can be found in https://anonymous.4open.science/r/SM-1E76.

arxiv情報

著者 Yetao Wu,Yihong Wang,Teng Chen,Ningyuan Xi,Qingqing Gu,Hongyang Lei,Luo Ji
発行日 2025-04-24 03:29:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | LaMsS: When Large Language Models Meet Self-Skepticism はコメントを受け付けていません

Synthetic Lyrics Detection Across Languages and Genres

要約

近年、音楽コンテンツ、特に歌詞を生成するために大規模な言語モデル(LLM)を使用して人気が高まっています。
これらの進歩は、アーティストに貴重なツールを提供し、創造的なプロセスを強化しますが、著作権違反、消費者の満足度、コンテンツスパムについての懸念も高めます。
以前の研究では、さまざまなドメインでのコンテンツの検出が調査されています。
ただし、テキストモダリティ、歌詞、音楽に焦点を当てた作品はありません。
このギャップに対処するために、複数の言語、音楽ジャンル、アーティストからのリアルと合成の歌詞の多様なデータセットをキュレーションしました。
生成パイプラインは、人間と自動化された方法の両方を使用して検証されました。
以前に未開拓のデータ型である歌詞に関する既存の合成テキスト検出アプローチの徹底的な評価を実行しました。
また、監視されていないドメインの適応を通じて、最高のパフォーマンスの機能を歌詞に適応させる方法を調査しました。
音楽と産業の両方の制約に従って、これらのアプローチが言語間でどの程度うまく一般化され、データの可用性でスケーリングし、多言語のコンテンツを処理し、少ないショット設定で新しいジャンルで実行するかを調べました。
私たちの調査結果は、AIが生成された音楽に関する政策決定を通知し、ユーザーの透明性を高めることができる有望な結果を示しています。

要約(オリジナル)

In recent years, the use of large language models (LLMs) to generate music content, particularly lyrics, has gained in popularity. These advances provide valuable tools for artists and enhance their creative processes, but they also raise concerns about copyright violations, consumer satisfaction, and content spamming. Previous research has explored content detection in various domains. However, no work has focused on the text modality, lyrics, in music. To address this gap, we curated a diverse dataset of real and synthetic lyrics from multiple languages, music genres, and artists. The generation pipeline was validated using both humans and automated methods. We performed a thorough evaluation of existing synthetic text detection approaches on lyrics, a previously unexplored data type. We also investigated methods to adapt the best-performing features to lyrics through unsupervised domain adaptation. Following both music and industrial constraints, we examined how well these approaches generalize across languages, scale with data availability, handle multilingual language content, and perform on novel genres in few-shot settings. Our findings show promising results that could inform policy decisions around AI-generated music and enhance transparency for users.

arxiv情報

著者 Yanis Labrak,Markus Frohmann,Gabriel Meseguer-Brocal,Elena V. Epure
発行日 2025-04-24 07:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Synthetic Lyrics Detection Across Languages and Genres はコメントを受け付けていません

Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics

要約

堅牢で一般化可能な世界モデルの学習は、実際の環境で効率的でスケーラブルなロボット制御を可能にするために重要です。
この作業では、複雑で部分的に観察可能な、確率的ダイナミクスを正確にキャプチャする世界モデルを学習するための新しいフレームワークを紹介します。
提案された方法は、ドメイン固有の帰納的バイアスに依存することなく、信頼できる長老の予測を実現するために、二重自動性メカニズムと自己監視トレーニングを採用し、多様なロボットタスク全体の適応性を確保します。
さらに、想像上の環境での効率的なトレーニングと現実世界のシステムでのシームレスな展開のために世界モデルを活用するポリシー最適化フレームワークを提案します。
この作業は、長老の予測、エラーの蓄積、およびSIMからリアルへの転送の課題に対処することにより、モデルベースの強化学習を進めます。
スケーラブルで堅牢なフレームワークを提供することにより、導入された方法は、実際のアプリケーションで適応的で効率的なロボットシステムへの道を開きます。

要約(オリジナル)

Learning robust and generalizable world models is crucial for enabling efficient and scalable robotic control in real-world environments. In this work, we introduce a novel framework for learning world models that accurately capture complex, partially observable, and stochastic dynamics. The proposed method employs a dual-autoregressive mechanism and self-supervised training to achieve reliable long-horizon predictions without relying on domain-specific inductive biases, ensuring adaptability across diverse robotic tasks. We further propose a policy optimization framework that leverages world models for efficient training in imagined environments and seamless deployment in real-world systems. This work advances model-based reinforcement learning by addressing the challenges of long-horizon prediction, error accumulation, and sim-to-real transfer. By providing a scalable and robust framework, the introduced methods pave the way for adaptive and efficient robotic systems in real-world applications.

arxiv情報

著者 Chenhao Li,Andreas Krause,Marco Hutter
発行日 2025-04-24 05:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics はコメントを受け付けていません

TALES: Text Adventure Learning Environment Suite

要約

推論は、大規模な言語モデル(LLM)が世界と対話できるようにするための不可欠なスキルです。
タスクがより複雑になるにつれて、彼らは順次意思決定のためにますます洗練された多様な推論能力を要求し、次の最高のアクションを決定するために、コンテキスト履歴に関する構造化された推論を必要とします。
Talesを紹介します。Talesは、多様な推論能力に挑戦し、評価するために設計された、合成および人間が作成したテキストアドベンチャーゲームの多様なコレクションです。
さまざまなLLMS、オープンウェイトおよびクローズウェイトで結果を提示し、上部のパフォーマンスモデルで定性分析を実行します。
合成ゲームでの印象的なショーにもかかわらず、トップのLLM主導のエージェントでさえ、人間の楽しみのために設計されたゲームで15%を達成できませんでした。
実験のコードと視覚化は、https://microsoft.github.io/tale-suiteで見つけることができます。

要約(オリジナル)

Reasoning is an essential skill to enable Large Language Models (LLMs) to interact with the world. As tasks become more complex, they demand increasingly sophisticated and diverse reasoning capabilities for sequential decision-making, requiring structured reasoning over the context history to determine the next best action. We introduce TALES, a diverse collection of synthetic and human-written text-adventure games designed to challenge and evaluate diverse reasoning capabilities. We present results over a range of LLMs, open- and closed-weights, performing a qualitative analysis on the top performing models. Despite an impressive showing on synthetic games, even the top LLM-driven agents fail to achieve 15% on games designed for human enjoyment. Code and visualization of the experiments can be found at https://microsoft.github.io/tale-suite.

arxiv情報

著者 Christopher Zhang Cui,Xingdi Yuan,Ziang Xiao,Prithviraj Ammanabrolu,Marc-Alexandre Côté
発行日 2025-04-24 02:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TALES: Text Adventure Learning Environment Suite はコメントを受け付けていません

V$^2$R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations

要約

大規模なビジョン言語モデル(LVLMS)は、さまざまなビジョン言語タスクに優れています。
しかし、視点と環境の変化のために必然的に示す自然なシーンでオブジェクトが示す位置、スケール、方向、およびコンテキストの視覚的変動に対するそれらの堅牢性。
このギャップを埋めるために、自動化された評価データセット生成と徹底的な堅牢性評価のための原理化されたメトリックを含むLVLMSの視覚的変動の堅牢性を評価するための包括的なベンチマークフレームワークであるv $^2 $ r-benchを導入します。
21 LVLMSでの広範な評価を通じて、視覚的バリエーションに対する驚くべき脆弱性を明らかにします。そこでは、オブジェクト認識などの単純なタスクで複雑なビジョン言語タスクに優れている高度なモデルでさえもパフォーマンスが低いことを明らかにします。
興味深いことに、これらのモデルは、効果的な受容フィールドの理論と矛盾する明確な視覚位置バイアスを示し、人間のような視力閾値を実証します。
これらの脆弱性のソースを特定するために、コンポーネントレベルの分析のための体系的なフレームワークを提示し、整列した視覚的特徴のための新しい視覚化アプローチを特徴としています。
結果は、これらの脆弱性がパイプラインアーキテクチャにおけるエラーの蓄積と不十分なマルチモーダルアライメントに起因することを示しています。
合成データを伴う補完的な実験はさらに、これらの制限が基本的に建築的欠陥であり、将来のLVLMデザインにおける建築革新の必要性を採点していることを示しています。

要約(オリジナル)

Large Vision Language Models (LVLMs) excel in various vision-language tasks. Yet, their robustness to visual variations in position, scale, orientation, and context that objects in natural scenes inevitably exhibit due to changes in viewpoint and environment remains largely underexplored. To bridge this gap, we introduce V$^2$R-Bench, a comprehensive benchmark framework for evaluating Visual Variation Robustness of LVLMs, which encompasses automated evaluation dataset generation and principled metrics for thorough robustness assessment. Through extensive evaluation on 21 LVLMs, we reveal a surprising vulnerability to visual variations, in which even advanced models that excel at complex vision-language tasks significantly underperform on simple tasks such as object recognition. Interestingly, these models exhibit a distinct visual position bias that contradicts theories of effective receptive fields, and demonstrate a human-like visual acuity threshold. To identify the source of these vulnerabilities, we present a systematic framework for component-level analysis, featuring a novel visualization approach for aligned visual features. Results show that these vulnerabilities stem from error accumulation in the pipeline architecture and inadequate multimodal alignment. Complementary experiments with synthetic data further demonstrate that these limitations are fundamentally architectural deficiencies, scoring the need for architectural innovations in future LVLM designs.

arxiv情報

著者 Zhiyuan Fan,Yumeng Wang,Sandeep Polisetty,Yi R. Fung
発行日 2025-04-24 02:18:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | V$^2$R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations はコメントを受け付けていません

Measuring Uncertainty in Shape Completion to Improve Grasp Quality

要約

シェイプ完成ネットワークは、現実世界のロボット実験で最近使用されており、自己閉鎖が発生する1つまたは数の例でオブジェクトが観察される環境で欠落/隠し情報を完​​成させます。
現在、ほとんどのアプローチは、より正確で現実的なオブジェクトのジオメトリにつながるリッチ3Dポイントクラウドデータを処理する深いニューラルネットワークに依存しています。
ただし、これらのモデルは、これらのエラーが把握に失敗するように複合するシナリオを把握するシナリオのパフォーマンスの低下につながる可能性のある非決定的/確率的推論のために、依然として不正確さに悩まされています。
テーブル上のオブジェクトの単一ビューポイントクラウドの推論中に、3D形状完了モデルの不確実性を計算するアプローチを提示します。
さらに、Grasp候補に存在する完成したポイントクラウドの不確実性を導入することにより、ポーズアルゴリズムの品質スコアを把握するための更新を提案します。
完全なパイプラインをテストするために、大量の家庭用オブジェクトに2本のフィンガーグリッパーを備えた7DOFロボットアームで把握し、不確実性を測定しない以前のアプローチと比較します。
私たちのアプローチは、把握の品質をより良くランク付けし、最先端と比較して、ランク5の把握候補者の成功率が高くなります。

要約(オリジナル)

Shape completion networks have been used recently in real-world robotic experiments to complete the missing/hidden information in environments where objects are only observed in one or few instances where self-occlusions are bound to occur. Nowadays, most approaches rely on deep neural networks that handle rich 3D point cloud data that lead to more precise and realistic object geometries. However, these models still suffer from inaccuracies due to its nondeterministic/stochastic inferences which could lead to poor performance in grasping scenarios where these errors compound to unsuccessful grasps. We present an approach to calculate the uncertainty of a 3D shape completion model during inference of single view point clouds of an object on a table top. In addition, we propose an update to grasp pose algorithms quality score by introducing the uncertainty of the completed point cloud present in the grasp candidates. To test our full pipeline we perform real world grasping with a 7dof robotic arm with a 2 finger gripper on a large set of household objects and compare against previous approaches that do not measure uncertainty. Our approach ranks the grasp quality better, leading to higher grasp success rate for the rank 5 grasp candidates compared to state of the art.

arxiv情報

著者 Nuno Ferreira Duarte,Seyed S. Mohammadi,Plinio Moreno,Alessio Del Bue,Jose Santos-Victor
発行日 2025-04-22 18:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Measuring Uncertainty in Shape Completion to Improve Grasp Quality はコメントを受け付けていません