Multi-modal cascade feature transfer for polymer property prediction

要約

この論文では、ポリマー特性予測の特徴転送を備えたマルチモーダルカスケードモデルと呼ばれる新しい転送学習アプローチを提案します。ポリマーは、分子記述子や追加情報、化学構造など、いくつかの異なる形式のデータの複合によって特徴付けられます。
ただし、従来のアプローチでは、各タイプのデータを個別に使用して予測モデルが構築されることがよくありました。
私たちのモデルは、グラフ畳み込みニューラルネットワーク(GCN)と分子記述子や加算情報などの特徴によって化学構造から抽出された特徴を組み合わせることにより、ポリマーの物理的特性のより正確な予測を可能にします。
提案された方法の予測性能は、いくつかのポリマーデータセットを使用して経験的に評価されます。
提案された方法は、単一の機能を使用して、ベースラインの従来のアプローチと比較して高い予測性能を示していると報告しています。

要約(オリジナル)

In this paper, we propose a novel transfer learning approach called multi-modal cascade model with feature transfer for polymer property prediction.Polymers are characterized by a composite of data in several different formats, including molecular descriptors and additive information as well as chemical structures. However, in conventional approaches, prediction models were often constructed using each type of data separately. Our model enables more accurate prediction of physical properties for polymers by combining features extracted from the chemical structure by graph convolutional neural networks (GCN) with features such as molecular descriptors and additive information. The predictive performance of the proposed method is empirically evaluated using several polymer datasets. We report that the proposed method shows high predictive performance compared to the baseline conventional approach using a single feature.

arxiv情報

著者 Kiichi Obuchi,Yuta Yahagi,Kiyohiko Toyama,Shukichi Tanaka,Kota Matsui
発行日 2025-05-07 10:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Multi-modal cascade feature transfer for polymer property prediction はコメントを受け付けていません

Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision

要約

ビデオ品質評価(VQA)は、カメラキャプチャシステムからオーバーザトップストリーミングプラットフォームに至るまで、さまざまなビデオ処理ワークフローの知覚品質を定量化するために不可欠です。
最近の監視されたVQAモデルは大幅に進歩していますが、手動で注釈付きのデータセット(労働集約的で費用がかかり、スケールアップが困難なプロセスへの依存が、目に見えないビデオコンテンツと歪みに対する一般化のさらなる最適化を妨げています。
このギャップを埋めるために、VQAの自己監視学習フレームワークを紹介して、大規模でラベルの付いたWebビデオから品質評価機能を学習します。
私たちのアプローチは、a \ textBf {ランキングの学習}パラダイムを活用して、既存のVQAモデルによる高品質の擬似標識や合成歪みシミュレーションに基づく相対的な品質ランキングを含む、2つのマナーで自動的にラベル付けされたビデオペアで大きなマルチモーダルモデル(LMM)をトレーニングします。
さらに、新しい\ textBf {反復的自己改善トレーニング戦略}を紹介します。ここでは、トレーニングされたモデルが改良されたアノテーターを使用して、トレーニングデータの注釈の品質を繰り返し改善します。
既存のVQAベンチマークよりも10 \ Times $のデータセットでトレーニングすることにより、我々のモデル:(1)ドメイン内のVQAベンチマークでゼロショットパフォーマンスを達成し、監視されたモデルと一致または上回る。
(2)多様なビデオコンテンツと歪みにわたる優れた分散(OOD)一般化を示します。
(3)人間に標識されたデータセットで微調整されたときに、新しい最先端を設定します。
広範な実験結果は、一般化されたVQAモデルのトレーニングにおける自己監視アプローチの有効性を検証します。
データセットとコードは、将来の研究を促進するために公開されます。

要約(オリジナル)

Video quality assessment (VQA) is essential for quantifying perceptual quality in various video processing workflows, spanning from camera capture systems to over-the-top streaming platforms. While recent supervised VQA models have made substantial progress, the reliance on manually annotated datasets — a process that is labor-intensive, costly, and difficult to scale up — has hindered further optimization of their generalization to unseen video content and distortions. To bridge this gap, we introduce a self-supervised learning framework for VQA to learn quality assessment capabilities from large-scale, unlabeled web videos. Our approach leverages a \textbf{learning-to-rank} paradigm to train a large multimodal model (LMM) on video pairs automatically labeled via two manners, including quality pseudo-labeling by existing VQA models and relative quality ranking based on synthetic distortion simulations. Furthermore, we introduce a novel \textbf{iterative self-improvement training strategy}, where the trained model acts an improved annotator to iteratively refine the annotation quality of training data. By training on a dataset $10\times$ larger than the existing VQA benchmarks, our model: (1) achieves zero-shot performance on in-domain VQA benchmarks that matches or surpasses supervised models; (2) demonstrates superior out-of-distribution (OOD) generalization across diverse video content and distortions; and (3) sets a new state-of-the-art when fine-tuned on human-labeled datasets. Extensive experimental results validate the effectiveness of our self-supervised approach in training generalized VQA models. The datasets and code will be publicly released to facilitate future research.

arxiv情報

著者 Linhan Cao,Wei Sun,Kaiwei Zhang,Yicong Peng,Guangtao Zhai,Xiongkuo Min
発行日 2025-05-07 10:07:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision はコメントを受け付けていません

Weighted Random Dot Product Graphs

要約

複雑な関係パターンのモデリングは、現代の統計研究と関連するデータサイエンス分野の基礎となっています。
グラフとして表されるネットワークは、この分析のための自然なフレームワークを提供します。
このペーパーでは、ランダムドット製品グラフ(RDPG)モデルを拡張して加重グラフに対応し、エッジが異種の重量分布を示すシナリオにモデルの範囲を著しく拡大します。
各ノードに潜在位置のシーケンスを割り当てるノンパラメトリック加重(W)RDPGモデルを提案します。
これらの節点ベクトルの内部積は、モーメント生成関数を介してインシデントエッジウェイトの分布のモーメントを指定します。
このようにして、以前のアートとは異なり、WRDPGは同じ平均を共有するが、他の高次モーメントで異なる重量分布を区別できます。
私たちは、主力の隣接スペクトル埋め込みから採用された節点の潜在位置の推定器の統計的保証を導き出し、その一貫性と漸近正常性を確立します。
また、(規定またはデータに適合した)WRDPGに付着するグラフのサンプリングを可能にする生成フレームワークを提供し、例えば、賢明な参照分布を使用した観察されたグラフメトリックの分析とテストを促進します。
このペーパーは、モデルの定義、推定(またはノーダル埋め込み)プロセスとその保証、および加重グラフを生成するための方法論を形式化するために編成されています。これらはすべて、さまざまなネットワーク分析アプリケーションにおけるWRDPGの有効性を示す実例と再現可能な例によって補完されます。

要約(オリジナル)

Modeling of intricate relational patterns has become a cornerstone of contemporary statistical research and related data science fields. Networks, represented as graphs, offer a natural framework for this analysis. This paper extends the Random Dot Product Graph (RDPG) model to accommodate weighted graphs, markedly broadening the model’s scope to scenarios where edges exhibit heterogeneous weight distributions. We propose a nonparametric weighted (W)RDPG model that assigns a sequence of latent positions to each node. Inner products of these nodal vectors specify the moments of their incident edge weights’ distribution via moment-generating functions. In this way, and unlike prior art, the WRDPG can discriminate between weight distributions that share the same mean but differ in other higher-order moments. We derive statistical guarantees for an estimator of the nodal’s latent positions adapted from the workhorse adjacency spectral embedding, establishing its consistency and asymptotic normality. We also contribute a generative framework that enables sampling of graphs that adhere to a (prescribed or data-fitted) WRDPG, facilitating, e.g., the analysis and testing of observed graph metrics using judicious reference distributions. The paper is organized to formalize the model’s definition, the estimation (or nodal embedding) process and its guarantees, as well as the methodologies for generating weighted graphs, all complemented by illustrative and reproducible examples showcasing the WRDPG’s effectiveness in various network analytic applications.

arxiv情報

著者 Bernardo Marenco,Paola Bermolen,Marcelo Fiori,Federico Larroca,Gonzalo Mateos
発行日 2025-05-07 02:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.CO, math.PR, stat.ML | Weighted Random Dot Product Graphs はコメントを受け付けていません

PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model

要約

オーディオ駆動型のヒューマンアニメーションテクノロジーは、ヒューマンコンピューターの相互作用で広く使用されており、拡散モデルの出現により、その開発がさらに進歩しました。
現在、ほとんどの方法は、マルチステージの生成と中間表現に依存しており、特定の前景領域の生成品質とオーディオモーションの一貫性に長い推論時間と問題をもたらしています。
これらの欠点は、主に局所的な細粒の監視されたガイダンスがないためです。
上記の課題に対処するために、拡散モデルを備えたエンドツーエンドのオーディオ駆動型の上半身の人間アニメーションフレームワークであるPahaを提案します。
2つの重要な方法を紹介します:部品認識の再重視(PAR)と部品の一貫性の強化(PCE)。
PARは、ポーズ信頼スコアに基づいて地域のトレーニング損失の重みを動的に調整し、視覚品質を効果的に改善します。
PCEは、拡散ベースの地域の視聴覚分類器を構築および訓練して、モーションと共同スピーチのオーディオの一貫性を改善します。
その後、前述の分類器、シーケンシャルガイダンス(SG)および差動ガイダンス(DG)の2つの新しい推論ガイダンス方法を、それぞれ効率と品質のバランスをとることができます。
さらに、この分野での研究と検証を進めるために、最初の中国のニュースアンカースピーチデータセットであるCNAを構築します。
大規模な実験結果とユーザー研究は、PAHAがオーディオモーションの調整とビデオ関連の評価で既存の方法を大幅に上回ることを示しています。
コードとCNASデータセットは、受け入れられるとリリースされます。

要約(オリジナル)

Audio-driven human animation technology is widely used in human-computer interaction, and the emergence of diffusion models has further advanced its development. Currently, most methods rely on multi-stage generation and intermediate representations, resulting in long inference time and issues with generation quality in specific foreground regions and audio-motion consistency. These shortcomings are primarily due to the lack of localized fine-grained supervised guidance. To address above challenges, we propose PAHA, an end-to-end audio-driven upper-body human animation framework with diffusion model. We introduce two key methods: Parts-Aware Re-weighting (PAR) and Parts Consistency Enhancement (PCE). PAR dynamically adjusts regional training loss weights based on pose confidence scores, effectively improving visual quality. PCE constructs and trains diffusion-based regional audio-visual classifiers to improve the consistency of motion and co-speech audio. Afterwards, we design two novel inference guidance methods for the foregoing classifiers, Sequential Guidance (SG) and Differential Guidance (DG), to balance efficiency and quality respectively. Additionally, we build CNAS, the first public Chinese News Anchor Speech dataset, to advance research and validation in this field. Extensive experimental results and user studies demonstrate that PAHA significantly outperforms existing methods in audio-motion alignment and video-related evaluations. The codes and CNAS dataset will be released upon acceptance.

arxiv情報

著者 Y. B. Wang,S. Z. Zhou,J. F. Wu,T. Hu,J. N. Zhang,Y. Liu
発行日 2025-05-07 03:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model はコメントを受け付けていません

Visual Imitation Enables Contextual Humanoid Control

要約

ヒューマノイドに階段を登り、周囲の環境のコンテキストを使用して椅子に座るように教えてください。
間違いなく、最も簡単な方法は、それらを単に人間のモーションビデオをキャプチャして、ヒューマノイドに供給することです。
VideMimicを紹介します。これは、毎日のビデオを採掘し、人間と環境を共同で再構築し、対応するスキルを実行するヒューマノイドロボットの全身制御ポリシーを作成する本物のパイプラインを紹介します。
実際のヒューマノイドロボットでのパイプラインの結果を示し、階段の上昇や下降剤、椅子やベンチからの座って立っているなどの堅牢で再現可能なコンテキスト制御、および環境とグローバルルートコマンドを条件付けられた単一のポリシーからの他のダイナミックな全身スキルを示しています。
VideMimicは、多様な現実世界環境で動作するためにヒューマノイドを教えるためのスケーラブルなパスを提供します。

要約(オリジナル)

How can we teach humanoids to climb staircases and sit on chairs using the surrounding environment context? Arguably, the simplest way is to just show them-casually capture a human motion video and feed it to humanoids. We introduce VIDEOMIMIC, a real-to-sim-to-real pipeline that mines everyday videos, jointly reconstructs the humans and the environment, and produces whole-body control policies for humanoid robots that perform the corresponding skills. We demonstrate the results of our pipeline on real humanoid robots, showing robust, repeatable contextual control such as staircase ascents and descents, sitting and standing from chairs and benches, as well as other dynamic whole-body skills-all from a single policy, conditioned on the environment and global root commands. VIDEOMIMIC offers a scalable path towards teaching humanoids to operate in diverse real-world environments.

arxiv情報

著者 Arthur Allshire,Hongsuk Choi,Junyi Zhang,David McAllister,Anthony Zhang,Chung Min Kim,Trevor Darrell,Pieter Abbeel,Jitendra Malik,Angjoo Kanazawa
発行日 2025-05-07 05:42:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Visual Imitation Enables Contextual Humanoid Control はコメントを受け付けていません

Uncertainty-Aware Prototype Semantic Decoupling for Text-Based Person Search in Full Images

要約

完全な画像のテキストベースの歩行者検索(TBPS)は、自然言語の説明を使用して、トリミングされていない画像でターゲットの歩行者を見つけることを目的としています。
ただし、複数の歩行者がいる複雑なシーンでは、既存の方法は検出とマッチングの不確実性によって制限され、パフォーマンスが低下します。
これに対処するために、3つのモジュールで構成される新しいフレームワークであるUPD-TBPSを提案します:多粒度の不確実性推定(MUE)、プロトタイプベースの不確実性分離(PUD)、およびクロスモーダル再識別(REID)。
MUEは、潜在的なターゲットを特定するためにマルチガニュラリティクエリを実施し、初期段階の不確実性を減らすために信頼性スコアを割り当てます。
PUDは、視覚的なコンテキストデカップリングとプロトタイプマイニングをレバレッジして、クエリに記載されているターゲットの歩行者の特徴を抽出します。
粗粒のクラスターレベルと細粒の個々のレベルの両方で、歩行者のプロトタイプ表現を分離および学習し、それによりマッチングの不確実性を減らします。
リードは、信頼レベルが変化する候補者を評価し、検出と検索の精度を改善します。
Cuhk-Sysu-TBPSおよびPRW-TBPSデータセットの実験により、フレームワークの有効性が検証されます。

要約(オリジナル)

Text-based pedestrian search (TBPS) in full images aims to locate a target pedestrian in untrimmed images using natural language descriptions. However, in complex scenes with multiple pedestrians, existing methods are limited by uncertainties in detection and matching, leading to degraded performance. To address this, we propose UPD-TBPS, a novel framework comprising three modules: Multi-granularity Uncertainty Estimation (MUE), Prototype-based Uncertainty Decoupling (PUD), and Cross-modal Re-identification (ReID). MUE conducts multi-granularity queries to identify potential targets and assigns confidence scores to reduce early-stage uncertainty. PUD leverages visual context decoupling and prototype mining to extract features of the target pedestrian described in the query. It separates and learns pedestrian prototype representations at both the coarse-grained cluster level and the fine-grained individual level, thereby reducing matching uncertainty. ReID evaluates candidates with varying confidence levels, improving detection and retrieval accuracy. Experiments on CUHK-SYSU-TBPS and PRW-TBPS datasets validate the effectiveness of our framework.

arxiv情報

著者 Zengli Luo,Canlong Zhang,Xiaochun Lu,Zhixin Li,Zhiwen Wang
発行日 2025-05-07 01:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Uncertainty-Aware Prototype Semantic Decoupling for Text-Based Person Search in Full Images はコメントを受け付けていません

HCOA*: Hierarchical Class-ordered A* for Navigation in Semantic Environments

要約

このペーパーでは、混合された幾何学的およびセマンティックな3D環境でのロボットナビゲーションの問題について説明します。
環境の階層的な表現を考えると、目的は、計算コストを最小限に抑えながら、開始位置からゴールに移動することです。
セマンティックグラフでの効率的なパス計画のために環境階層を活用するアルゴリズムである階層的なクラス順序A*(HCOA*)を紹介し、計算努力を大幅に削減します。
セマンティッククラスで合計順序を使用し、アルゴリズムの理論的パフォーマンス保証を証明します。
グラフニューラルネットワークベースの方法と多数級クラスの方法である最下層のノードセマンティクスに基づいて、高層ノード分類の2つのアプローチを提案します。
3Dシーングラフ(3DSG)のシミュレーションを通じてアプローチを評価し、それを最先端と比較し、分類アプローチに対するパフォーマンスを評価します。
結果は、HCOA*が最適なパスを見つけると同時に、拡張ノードの数を25%削減し、UHUMANS2 3DSGデータセットで計算時間を16%短縮することができることを示しています。

要約(オリジナル)

This paper addresses the problem of robot navigation in mixed geometric and semantic 3D environments. Given a hierarchical representation of the environment, the objective is to navigate from a start position to a goal while minimizing the computational cost. We introduce Hierarchical Class-ordered A* (HCOA*), an algorithm that leverages the environmental hierarchy for efficient path-planning in semantic graphs, significantly reducing computational effort. We use a total order over the semantic classes and prove theoretical performance guarantees for the algorithm. We propose two approaches for higher-layer node classification based on the node semantics of the lowest layer: a Graph Neural Network-based method and a Majority-Class method. We evaluate our approach through simulations on a 3D Scene Graph (3DSG), comparing it to the state-of-the-art and assessing its performance against our classification approaches. Results show that HCOA* can find the optimal path while reducing the number of expanded nodes by 25% and achieving a 16% reduction in computational time on the uHumans2 3DSG dataset.

arxiv情報

著者 Evangelos Psomiadis,Panagiotis Tsiotras
発行日 2025-05-06 03:03:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HCOA*: Hierarchical Class-ordered A* for Navigation in Semantic Environments はコメントを受け付けていません

Sensor-Based Distributionally Robust Control for Safe Robot Navigation in Dynamic Environments

要約

動的で未知の環境でモバイルロボットナビゲーションの新しい方法を導入し、オンボードセンシングと分布的に堅牢な最適化を活用して、確率的安全性の制約を課します。
この方法では、ノイズの多いセンサー測定と状態推定値を直接統合して安全性の制約を定義する分布的に堅牢な制御バリア関数(DR-CBF)を導入します。
このアプローチは、複雑なジオメトリを持つロボットに一般化可能であり、リアルタイムコントロール周波数で動作できる幅広いコントロールアフィンダイナミクスに適用できます。
パスフォロー用のコントロールリアプノフ関数(CLF)と相まって、提案されたCLF-DR-CBF制御合成法は、困難な環境で安全で堅牢で効率的なナビゲーションを実現します。
シミュレーションの不確実性と、微分駆動ロボットの実際の実験の不確実性の下で、安全な自律ナビゲーションに対するアプローチの有効性と堅牢性を実証します。

要約(オリジナル)

We introduce a novel method for mobile robot navigation in dynamic, unknown environments, leveraging onboard sensing and distributionally robust optimization to impose probabilistic safety constraints. Our method introduces a distributionally robust control barrier function (DR-CBF) that directly integrates noisy sensor measurements and state estimates to define safety constraints. This approach is applicable to a wide range of control-affine dynamics, generalizable to robots with complex geometries, and capable of operating at real-time control frequencies. Coupled with a control Lyapunov function (CLF) for path following, the proposed CLF-DR-CBF control synthesis method achieves safe, robust, and efficient navigation in challenging environments. We demonstrate the effectiveness and robustness of our approach for safe autonomous navigation under uncertainty in simulations and real-world experiments with differential-drive robots.

arxiv情報

著者 Kehan Long,Yinzhuang Yi,Zhirui Dai,Sylvia Herbert,Jorge Cortés,Nikolay Atanasov
発行日 2025-05-06 03:11:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Sensor-Based Distributionally Robust Control for Safe Robot Navigation in Dynamic Environments はコメントを受け付けていません

Learn to Swim: Data-Driven LSTM Hydrodynamic Model for Quadruped Robot Gait Optimization

要約

このホワイトペーパーでは、私たちが構築した水中の四足動物ロボットの不安定で非線形の流体力学的力を予測するための、長期の短期メモリネットワークベースの流体実験データ駆動型モデル(FED-LSTM)を提示します。
再循環水タンクとけん引タンクの両方で実施さ​​れた脚力とボディの抗力検査からの実験データで訓練されたFed-LSTMは、平らな表面上のフロー予測に一般的に使用される伝統的な経験式(EF)を上回ります。
このモデルは、特にNSGA-IIアルゴリズムを介した直線およびターニングゲートの最適化において、複雑な流体のダイナミクスをキャプチャする際の優れた精度と適応性を示しています。
FED-LSTMは、直線水泳中にたわみエラーを減らし、回転半径を増やすことなくターンタイムを改善します。
ハードウェア実験により、モデルのEFに対する安定性がさらに検証されます。
このアプローチは、足のロボットの水泳パフォーマンスを向上させるための堅牢なフレームワークを提供し、水中ロボットの移動における将来の進歩の基礎を築きます。

要約(オリジナル)

This paper presents a Long Short-Term Memory network-based Fluid Experiment Data-Driven model (FED-LSTM) for predicting unsteady, nonlinear hydrodynamic forces on the underwater quadruped robot we constructed. Trained on experimental data from leg force and body drag tests conducted in both a recirculating water tank and a towing tank, FED-LSTM outperforms traditional Empirical Formulas (EF) commonly used for flow prediction over flat surfaces. The model demonstrates superior accuracy and adaptability in capturing complex fluid dynamics, particularly in straight-line and turning-gait optimizations via the NSGA-II algorithm. FED-LSTM reduces deflection errors during straight-line swimming and improves turn times without increasing the turning radius. Hardware experiments further validate the model’s precision and stability over EF. This approach provides a robust framework for enhancing the swimming performance of legged robots, laying the groundwork for future advances in underwater robotic locomotion.

arxiv情報

著者 Fei Han,Pengming Guo,Hao Chen,Weikun Li,Jingbo Ren,Naijun Liu,Ning Yang,Dixia Fan
発行日 2025-05-06 03:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Learn to Swim: Data-Driven LSTM Hydrodynamic Model for Quadruped Robot Gait Optimization はコメントを受け付けていません

Neural Configuration-Space Barriers for Manipulation Planning and Control

要約

乱雑で動的な環境における高次元ロボットマニピュレーターの計画と制御には、計算効率と堅牢な安全性の保証の両方が必要です。
ロボットボディ表現として構成空間距離関数(CDFS)の学習における最近の進歩に触発され、CDFの障壁として安全制約を定式化するモーション計画と制御のための統一されたフレームワークを提案します。
CDFバリアは、ローカルフリー構成スペースに近似し、モーション計画中の衝突チェック操作の数を大幅に減らします。
ただし、ニューラルネットワークでCDFバリアを学習し、オンラインセンサーの観察に依存すると、コントロール合成中に考慮しなければならない不確実性が生じます。
これに対処するために、既知の基礎分布を想定せずにモデリングエラーとセンサーノイズを明示的に説明する制御用の分布的に堅牢なCDFバリア定式化を開発します。
6-dof Xarmマニピュレーターでのシミュレーションとハードウェア実験により、私たちの神経CDFバリアの定式化により、機内ポイントクラウド観測にのみ依存して、散らかった動的環境で効率的な計画と堅牢なリアルタイムの安全な制御が可能になります。

要約(オリジナル)

Planning and control for high-dimensional robot manipulators in cluttered, dynamic environments require both computational efficiency and robust safety guarantees. Inspired by recent advances in learning configuration-space distance functions (CDFs) as robot body representations, we propose a unified framework for motion planning and control that formulates safety constraints as CDF barriers. A CDF barrier approximates the local free configuration space, substantially reducing the number of collision-checking operations during motion planning. However, learning a CDF barrier with a neural network and relying on online sensor observations introduce uncertainties that must be considered during control synthesis. To address this, we develop a distributionally robust CDF barrier formulation for control that explicitly accounts for modeling errors and sensor noise without assuming a known underlying distribution. Simulations and hardware experiments on a 6-DoF xArm manipulator show that our neural CDF barrier formulation enables efficient planning and robust real-time safe control in cluttered and dynamic environments, relying only on onboard point-cloud observations.

arxiv情報

著者 Kehan Long,Ki Myung Brian Lee,Nikola Raicevic,Niyas Attasseri,Melvin Leok,Nikolay Atanasov
発行日 2025-05-06 04:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Neural Configuration-Space Barriers for Manipulation Planning and Control はコメントを受け付けていません