Decoupling Collision Avoidance in and for Optimal Control using Least-Squares Support Vector Machines

要約

このペーパーでは、凸形に合わせた微分微細な衝突回避制約を線形化するアプローチについて詳しく説明しています。
凸型オブジェクトの差動衝突回避制約を、分離する超平面理論を使用して最適な制御問題(OCP)に導入することを再検討します。
この定理を分類問題としてフレーミングすることにより、HyperPlanはOCPからの最適化変数として排除されます。
これにより、非凸の制約が線形制約に効果的に変換されます。
バイレベルのアルゴリズムは、最適化ソルバーの反復間のハイパープレーンを計算し、その後、それらをOCPにパラメーターとして埋め込みます。
実験は、乱雑な環境に対するアプローチの好ましいスケーラビリティと、さまざまなモーション計画アプローチへの適用性を示しています。
最適な制御問題の変数としてハイパープレーンを直接含める最先端のアプローチと比較して、50 \%から90 \%の間の軌道計算時間を減らします。

要約(オリジナル)

This paper details an approach to linearise differentiable but non-convex collision avoidance constraints tailored to convex shapes. It revisits introducing differential collision avoidance constraints for convex objects into an optimal control problem (OCP) using the separating hyperplane theorem. By framing this theorem as a classification problem, the hyperplanes are eliminated as optimisation variables from the OCP. This effectively transforms non-convex constraints into linear constraints. A bi-level algorithm computes the hyperplanes between the iterations of an optimisation solver and subsequently embeds them as parameters into the OCP. Experiments demonstrate the approach’s favourable scalability towards cluttered environments and its applicability to various motion planning approaches. It decreases trajectory computation times between 50\% and 90\% compared to a state-of-the-art approach that directly includes the hyperplanes as variables in the optimal control problem.

arxiv情報

著者 Dries Dirckx,Wilm Decré,Jan Swevers
発行日 2025-05-16 15:41:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | Decoupling Collision Avoidance in and for Optimal Control using Least-Squares Support Vector Machines はコメントを受け付けていません

Self-supervised perception for tactile skin covered dexterous hands

要約

指先、ファレンジ、および器用なロボットハンドの手のひらに分布する磁気皮膚センサー用の事前に訓練されたエンコーダーであるSparsh-Skinを紹介します。
磁気触覚スキンは、指先に制限され、帯域幅によって制限される視覚ベースの触覚センサーとは対照的に、速い応答時間を備えた手動カバレッジの柔軟なフォームファクターを提供します。
フルハンドの触覚の知覚は、ロボットの器用さにとって非常に重要です。
ただし、汎用モデルの欠如、磁束の解釈とキャリブレーションの解釈に関する課題により、これらのセンサーの採用が制限されています。
Sparsh-Skinは、手を横切って運動学的で触覚的なセンシングの歴史を考慮して、下流タスクで使用できる潜在的な触覚埋め込みを出力します。
エンコーダーは、Xela Uskinでセンサー化されたAllegroの手を使用して、さまざまな非標識手オブジェクトの相互作用に関する自己設定を通じて自己監視されます。
州の推定から政策学習まで、いくつかのベンチマークタスクにわたる実験では、前提条件のSparshスキン表現は、以前の作業と比較して下流のタスクの学習においてサンプル効率が高く、エンドツーエンドの学習と比較して56%以上のタスクパフォ​​ーマンスを改善することができます。

要約(オリジナル)

We present Sparsh-skin, a pre-trained encoder for magnetic skin sensors distributed across the fingertips, phalanges, and palm of a dexterous robot hand. Magnetic tactile skins offer a flexible form factor for hand-wide coverage with fast response times, in contrast to vision-based tactile sensors that are restricted to the fingertips and limited by bandwidth. Full hand tactile perception is crucial for robot dexterity. However, a lack of general-purpose models, challenges with interpreting magnetic flux and calibration have limited the adoption of these sensors. Sparsh-skin, given a history of kinematic and tactile sensing across a hand, outputs a latent tactile embedding that can be used in any downstream task. The encoder is self-supervised via self-distillation on a variety of unlabeled hand-object interactions using an Allegro hand sensorized with Xela uSkin. In experiments across several benchmark tasks, from state estimation to policy learning, we find that pretrained Sparsh-skin representations are both sample efficient in learning downstream tasks and improve task performance by over 41% compared to prior work and over 56% compared to end-to-end learning.

arxiv情報

著者 Akash Sharma,Carolina Higuera,Chaithanya Krishna Bodduluri,Zixi Liu,Taosha Fan,Tess Hellebrekers,Mike Lambeta,Byron Boots,Michael Kaess,Tingfan Wu,Francois Robert Hogan,Mustafa Mukadam
発行日 2025-05-16 16:32:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Self-supervised perception for tactile skin covered dexterous hands はコメントを受け付けていません

Should Collaborative Robots be Transparent?

要約

私たちは、人間と協力するロボットが透明性のある方法で振る舞うべきであるとしばしば仮定します(例えば、読みやすく、説明可能)。
これらの透明なロボットは、内部状態を近くの人間に伝えるアクションを意図的に選択します。たとえば、透明なロボットは、その目標を示すために軌跡を誇張するかもしれません。
しかし、透明な行動は人間とロボットの相互作用に有益と思われますが、実際には最適ですか?
この論文では、人間とロボットが同じ目的を持っている共同設定を検討し、人間がロボットのタイプ(つまり、ロボットの内部状態)について不確かです。
ベイジアンナッシュ平衡とベルマン方程式の再帰的な組み合わせを拡張して、最適なロボットポリシーを解決します。
興味深いことに、共同ロボットが透明であることが常に最適ではないことがわかります。
代わりに、ロボットが不透明な場合、人間とロボットのチームはより高い報酬を達成することがあります。
透明なロボットとは対照的に、不透明なロボットは、人間からの情報を差し控えるアクションを選択します。
私たちの分析は、(a)人間とロボットの相互作用が短い時間を過ごした場合、または(b)ユーザーがロボットの行動から学ぶのが遅い場合、不透明な動作が最適になることを示唆しています。
この理論的分析は、オンラインと対面の両方の設定の43人の合計参加者にわたってユーザー研究に拡張します。
短いインタラクション中に、ユーザーは不透明なパートナーと協力するときにより高い報酬に到達し、透明なロボットに等しいと主観的に不透明なロボットを評価していることがわかります。
https://youtu.be/u8q1z7whuuiの実験のビデオを参照してください

要約(オリジナル)

We often assume that robots which collaborate with humans should behave in ways that are transparent (e.g., legible, explainable). These transparent robots intentionally choose actions that convey their internal state to nearby humans: for instance, a transparent robot might exaggerate its trajectory to indicate its goal. But while transparent behavior seems beneficial for human-robot interaction, is it actually optimal? In this paper we consider collaborative settings where the human and robot have the same objective, and the human is uncertain about the robot’s type (i.e., the robot’s internal state). We extend a recursive combination of Bayesian Nash equilibrium and the Bellman equation to solve for optimal robot policies. Interestingly, we discover that it is not always optimal for collaborative robots to be transparent; instead, human and robot teams can sometimes achieve higher rewards when the robot is opaque. In contrast to transparent robots, opaque robots select actions that withhold information from the human. Our analysis suggests that opaque behavior becomes optimal when either (a) human-robot interactions have a short time horizon or (b) users are slow to learn from the robot’s actions. We extend this theoretical analysis to user studies across 43 total participants in both online and in-person settings. We find that — during short interactions — users reach higher rewards when working with opaque partners, and subjectively rate opaque robots as about equal to transparent robots. See videos of our experiments here: https://youtu.be/u8q1Z7WHUuI

arxiv情報

著者 Shahabedin Sagheb,Soham Gandhi,Dylan P. Losey
発行日 2025-05-16 17:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Should Collaborative Robots be Transparent? はコメントを受け付けていません

REACT: Runtime-Enabled Active Collision-avoidance Technique for Autonomous Driving

要約

動的なインタラクティブトラフィックにおける迅速かつ効果的な積極的な衝突回避を達成することは、自律運転の中心的な課題のままです。
このペーパーでは、リスク評価をアクティブな回避制御と統合する閉ループフレームワークであるReact(ランタイム対応アクティブ衝突回避技術)を提案します。
エネルギー移動原則と人間車両の道路相互作用モデリングを活用することにより、反応はランタイムリスクを動的に定量化し、連続空間リスクフィールドを構築します。
このシステムには、高リスクゾーンを識別し、実行可能で解釈可能な回避行動を生成するために、方向リスクやトラフィックルールなどの物理的に接地された安全性の制約が組み込まれています。
階層的な警告トリガー戦略と軽量システム設計により、リアルタイムの応答性を確保しながら、ランタイム効率が向上します。
車によるブレーキ、カットイン、リアアプローチ、交差競合など、4つの代表的な高リスクシナリオにまたがる評価は、Reactの能力を実証し、重要なリスクを正確に特定し、積極的な回避を実行します。
そのリスク推定は、人間のドライバー認知(つまり、警告リードタイム<0.4秒)と密接に一致し、誤報または見逃した検出で100%の安全な回避を達成します。 さらに、優れたリアルタイムパフォーマンス(<50ミリ秒)、強力な先見性、および一般化を示します。 軽量アーキテクチャは、最先端の精度を達成し、安全性が批判的な自律システムにおけるリアルタイムの展開の可能性を強調しています。

要約(オリジナル)

Achieving rapid and effective active collision avoidance in dynamic interactive traffic remains a core challenge for autonomous driving. This paper proposes REACT (Runtime-Enabled Active Collision-avoidance Technique), a closed-loop framework that integrates risk assessment with active avoidance control. By leveraging energy transfer principles and human-vehicle-road interaction modeling, REACT dynamically quantifies runtime risk and constructs a continuous spatial risk field. The system incorporates physically grounded safety constraints such as directional risk and traffic rules to identify high-risk zones and generate feasible, interpretable avoidance behaviors. A hierarchical warning trigger strategy and lightweight system design enhance runtime efficiency while ensuring real-time responsiveness. Evaluations across four representative high-risk scenarios including car-following braking, cut-in, rear-approaching, and intersection conflict demonstrate REACT’s capability to accurately identify critical risks and execute proactive avoidance. Its risk estimation aligns closely with human driver cognition (i.e., warning lead time < 0.4 s), achieving 100% safe avoidance with zero false alarms or missed detections. Furthermore, it exhibits superior real-time performance (< 50 ms latency), strong foresight, and generalization. The lightweight architecture achieves state-of-the-art accuracy, highlighting its potential for real-time deployment in safety-critical autonomous systems.

arxiv情報

著者 Heye Huang,Hao Cheng,Zhiyuan Zhou,Zijin Wang,Qichao Liu,Xiaopeng Li
発行日 2025-05-16 17:30:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | REACT: Runtime-Enabled Active Collision-avoidance Technique for Autonomous Driving はコメントを受け付けていません

UMArm: Untethered, Modular, Wearable, Soft Pneumatic Arm

要約

ロボットアームは現代の産業にとって不可欠ですが、構造化されていない環境への適応性は限られたままです。
ソフトロボットアーム、特に空気圧で作動するものは、構造化されていない環境での適応性が向上し、人間とロボットの相互作用の安全性が向上します。
ただし、現在の空気圧柔らかい腕は、限られた自由度、精度、ペイロード能力、かさばる外部圧力調節因子への依存によって制約されています。
この作業では、空気圧駆動型の新しい硬いハイブリッドアーム「umarm」が提示されています。
空気圧で作動した柔らかい腕の欠点は、高効力から重量の比率の自己調節マッキベンアクチュエーターを軽量の硬い背骨構造に密に統合することによって対処されます。
修正されたMcKibbenアクチュエーターには、バルブとコントローラーが直接内部に組み込まれ、個々の圧力ラインと外部レギュレーターの必要性がなくなり、システムの重みと複雑さが大幅に削減されます。
完全にゼロの操作、高ペイロード容量、精度、および方向に調整可能なコンプライアンスがUMARMによって達成されます。
携帯性はウェアラブルアシスタントアーム実験を通じて実証され、汎用性はシステムをインチワームロボットに再構成することで紹介されます。
この作業の結果は、UMARMのような高度の外部レジュレータを含まない空気圧駆動型のARMシステムが、実際の非構造化された環境の大きな可能性を持っていることを示しています。

要約(オリジナル)

Robotic arms are essential to modern industries, however, their adaptability to unstructured environments remains limited. Soft robotic arms, particularly those actuated pneumatically, offer greater adaptability in unstructured environments and enhanced safety for human-robot interaction. However, current pneumatic soft arms are constrained by limited degrees of freedom, precision, payload capacity, and reliance on bulky external pressure regulators. In this work, a novel pneumatically driven rigid-soft hybrid arm, “UMArm”, is presented. The shortcomings of pneumatically actuated soft arms are addressed by densely integrating high-force-to-weight-ratio, self-regulated McKibben actuators onto a lightweight rigid spine structure. The modified McKibben actuators incorporate valves and controllers directly inside, eliminating the need for individual pressure lines and external regulators, significantly reducing system weight and complexity. Full untethered operation, high payload capacity, precision, and directionally tunable compliance are achieved by the UMArm. Portability is demonstrated through a wearable assistive arm experiment, and versatility is showcased by reconfiguring the system into an inchworm robot. The results of this work show that the high-degree-of-freedom, external-regulator-free pneumatically driven arm systems like the UMArm possess great potential for real-world unstructured environments.

arxiv情報

著者 Runze Zuo,Dong Heon Han,Richard Li,Saima Jamal,Daniel Bruder
発行日 2025-05-16 17:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | UMArm: Untethered, Modular, Wearable, Soft Pneumatic Arm はコメントを受け付けていません

SHIELD: Safety on Humanoids via CBFs In Expectation on Learned Dynamics

要約

ロボット学習は、ヒューマノイドの動的運動などの複雑なタスクのために非常に効果的に「ブラックボックス」コントローラーを生成しました。
しかし、動的な安全性、つまり制約の満足度を確保することは、そのようなポリシーに依然として挑戦的です。
RENFERTION LEANING(RL)は、報酬エンジニアリングを通じてヒューリスティックな制約を埋め込み、制約を追加または変更するには再訓練が必要です。
コントロールバリア関数(CBFS)などのモデルベースのアプローチは、正式な保証でランタイム制約仕様を有効にしますが、正確なダイナミクスモデルが必要です。
このペーパーでは、次のことでこのギャップを埋める層状の安全フレームワークであるShieldを紹介します。
(2)確率的な離散時間CBF定式化を介してこのモデルを活用する公称(学習された移動)コントローラーの上に安全層を追加します。
その結果、既存の自律型スタックに追加して、リスクとパフォーマンスのバランスをとる安全性の確率的保証を与えることができる最小限の侵襲的な安全層ができます。
ユニットリーG1ヒューマノイドのハードウェア実験では、シールドを使用して、公称(不明)RLコントローラーとオンボード認識を使用して、さまざまな屋内および屋外環境を通じて安全なナビゲーション(障害物回避)を可能にします。

要約(オリジナル)

Robot learning has produced remarkably effective “black-box” controllers for complex tasks such as dynamic locomotion on humanoids. Yet ensuring dynamic safety, i.e., constraint satisfaction, remains challenging for such policies. Reinforcement learning (RL) embeds constraints heuristically through reward engineering, and adding or modifying constraints requires retraining. Model-based approaches, like control barrier functions (CBFs), enable runtime constraint specification with formal guarantees but require accurate dynamics models. This paper presents SHIELD, a layered safety framework that bridges this gap by: (1) training a generative, stochastic dynamics residual model using real-world data from hardware rollouts of the nominal controller, capturing system behavior and uncertainties; and (2) adding a safety layer on top of the nominal (learned locomotion) controller that leverages this model via a stochastic discrete-time CBF formulation enforcing safety constraints in probability. The result is a minimally-invasive safety layer that can be added to the existing autonomy stack to give probabilistic guarantees of safety that balance risk and performance. In hardware experiments on an Unitree G1 humanoid, SHIELD enables safe navigation (obstacle avoidance) through varied indoor and outdoor environments using a nominal (unknown) RL controller and onboard perception.

arxiv情報

著者 Lizhi Yang,Blake Werner,Ryan K. Cosner,David Fridovich-Keil,Preston Culbertson,Aaron D. Ames
発行日 2025-05-16 17:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SHIELD: Safety on Humanoids via CBFs In Expectation on Learned Dynamics はコメントを受け付けていません

Bracing for Impact: Robust Humanoid Push Recovery and Locomotion with Reduced Order Models

要約

移動中のプッシュリカバリーは、人間中心の環境でのヒューマノイドロボットの展開を容易にします。
このホワイトペーパーでは、ヒューマノイドロボットのウォーキングコントロールとプッシュリカバリのための統一されたフレームワークを紹介し、動的に歩いている間にプッシュリカバリのために腕を活用します。
重要な革新は、壁などの環境を使用して、単一の剛体モデル予測制御(SRB-MPC)とハイブリッド線形反転振り子(HLIP)のダイナミクスを組み合わせて、堅牢な移動、プッシュ検出、およびロボットのアームを利用して壁を装備し、壁を動作させ、接触力をダイナミングすることで回復を可能にすることにより、プッシュ回復を促進することです。
ヒューマノイドロボットの広範なシミュレーション結果は、HLIPのみと比較して摂動拒絶と追跡のパフォーマンスが改善されていることを示しており、ロボットは0.5m/sまでの速度で歩いている間、0.2秒で最大100nのプッシュから回復することができます。
堅牢性は、斜めの壁と多方向のプッシュを備えたシナリオでさらに検証されます。

要約(オリジナル)

Push recovery during locomotion will facilitate the deployment of humanoid robots in human-centered environments. In this paper, we present a unified framework for walking control and push recovery for humanoid robots, leveraging the arms for push recovery while dynamically walking. The key innovation is to use the environment, such as walls, to facilitate push recovery by combining Single Rigid Body model predictive control (SRB-MPC) with Hybrid Linear Inverted Pendulum (HLIP) dynamics to enable robust locomotion, push detection, and recovery by utilizing the robot’s arms to brace against such walls and dynamically adjusting the desired contact forces and stepping patterns. Extensive simulation results on a humanoid robot demonstrate improved perturbation rejection and tracking performance compared to HLIP alone, with the robot able to recover from pushes up to 100N for 0.2s while walking at commanded speeds up to 0.5m/s. Robustness is further validated in scenarios with angled walls and multi-directional pushes.

arxiv情報

著者 Lizhi Yang,Blake Werner,Adrian B. Ghansah,Aaron D. Ames
発行日 2025-05-16 17:57:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bracing for Impact: Robust Humanoid Push Recovery and Locomotion with Reduced Order Models はコメントを受け付けていません

Training NTK to Generalize with KARE

要約

訓練されたディープニューラルネットワーク(DNN)に関連するデータ依存性ニューラルタンジェントカーネル(NTK; Jacot et al。(2018))のパフォーマンスは、多くの場合、完全なネットワークのそれと一致またはそれを超えます。
これは、勾配降下によるDNNトレーニングが、NTKを最適化することによりカーネル学習を暗黙的に実行することを意味します。
この論文では、代わりにNTKを明示的に最適化することを提案します。
経験的リスクを最小限に抑えるのではなく、NTKをトレーニングして、最近開発されたカーネルアライメントリスク推定器を使用して一般化エラーを最小限に抑えます(Kare; Jacot et al。(2020))。
私たちのシミュレーションと実際のデータ実験は、Kareで訓練されたNTKが一貫して一致しているか、元のDNNとDNN誘発NTK(アフターカーネル)を大幅に上回ることを示しています。
これらの結果は、明示的に訓練されたカーネルが特定の設定で従来のエンドツーエンドDNN最適化を上回り、DNNの従来の支配に挑戦できることを示唆しています。
NTKの明示的なトレーニングは、過剰なパラメーター化された機能学習の一形態であると主張します。

要約(オリジナル)

The performance of the data-dependent neural tangent kernel (NTK; Jacot et al. (2018)) associated with a trained deep neural network (DNN) often matches or exceeds that of the full network. This implies that DNN training via gradient descent implicitly performs kernel learning by optimizing the NTK. In this paper, we propose instead to optimize the NTK explicitly. Rather than minimizing empirical risk, we train the NTK to minimize its generalization error using the recently developed Kernel Alignment Risk Estimator (KARE; Jacot et al. (2020)). Our simulations and real data experiments show that NTKs trained with KARE consistently match or significantly outperform the original DNN and the DNN- induced NTK (the after-kernel). These results suggest that explicitly trained kernels can outperform traditional end-to-end DNN optimization in certain settings, challenging the conventional dominance of DNNs. We argue that explicit training of NTK is a form of over-parametrized feature learning.

arxiv情報

著者 Johannes Schwab,Bryan Kelly,Semyon Malamud,Teng Andrea Xu
発行日 2025-05-16 15:13:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Training NTK to Generalize with KARE はコメントを受け付けていません

Context parroting: A simple but tough-to-beat baseline for foundation models in scientific machine learning

要約

科学機械学習のための最近開発された時系列基礎モデルは、物理システムを予測する緊急能力を示しています。
これらの能力には、モデルがコンテキストとして短い軌跡のみが与えられたシステムの将来の状態を予測するゼロショット予測が含まれます。
ここでは、物理システムに適用される基礎モデルが正確な予測を与えることができるが、基礎となる物理学の意味のある表現を開発できないことを示します。
代わりに、基礎モデルは、コンテキストから直接コピーするシンプルなゼロショット予測戦略であるコンテキストオウムによって予測されることがよくあります。
その結果、素朴な直接コンテキストオウムモデルは、計算コストのごく一部で、多様な動的システムの予測に関する最先端の時系列基礎モデルよりも高いスコアをスコアスコアします。
コンテキストのオウムと誘導ヘッドの間に類似点を描きます。これは、テキストで訓練された大規模な言語モデルを時系列予測のために再利用できる理由を説明しています。
また、私たちの動的システムの観点は、予測の精度とコンテキストの長さのスケーリングをアトラクタのフラクタル次元に結び付け、以前に観察された内部神経スケーリング法則に関する洞察を提供します。
したがって、コンテキストオウムは、将来のタイムシリーズファンデーションモデルのシンプルだが困難なベースラインとして機能し、オウムを超えたコンテキスト学習戦略を特定するのに役立ちます。

要約(オリジナル)

Recently-developed time series foundation models for scientific machine learning exhibit emergent abilities to predict physical systems. These abilities include zero-shot forecasting, in which a model forecasts future states of a system given only a short trajectory as context. Here, we show that foundation models applied to physical systems can give accurate predictions, but that they fail to develop meaningful representations of the underlying physics. Instead, foundation models often forecast by context parroting, a simple zero-shot forecasting strategy that copies directly from the context. As a result, a naive direct context parroting model scores higher than state-of-the-art time-series foundation models on predicting a diverse range of dynamical systems, at a tiny fraction of the computational cost. We draw a parallel between context parroting and induction heads, which explains why large language models trained on text can be repurposed for time series forecasting. Our dynamical systems perspective also ties the scaling between forecast accuracy and context length to the fractal dimension of the attractor, providing insight into the previously observed in-context neural scaling laws. Context parroting thus serves as a simple but tough-to-beat baseline for future time-series foundation models and can help identify in-context learning strategies beyond parroting.

arxiv情報

著者 Yuanzhao Zhang,William Gilpin
発行日 2025-05-16 15:14:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, nlin.CD, physics.comp-ph | Context parroting: A simple but tough-to-beat baseline for foundation models in scientific machine learning はコメントを受け付けていません

STRIDE: Sparse Techniques for Regression in Deep Gaussian Processes

要約

ガウスプロセス(GPS)は、不確実性の定量化のための組み込み方法を使用して、回帰および関数近似の柔軟な機械学習モデルとして人気を博しています。
ただし、GPSは、トレーニングデータの量が多い場合、または基礎となる関数に固定カーネルで表現するのが困難なマルチスケール機能が含まれている場合に苦しみます。
前者に対処するために、大規模なデータを使用したGPのトレーニングは、誘導点近似(スパースGP回帰(GPR)とも呼ばれる)を通じて実行されることがよくあり、GPRの共分散行列のサイズは、データセットでの貪欲な検索によって大幅に削減されます。
後者を支援するために、深いGPは、複数のGPを組み合わせることでマルチスケール機能を解決する階層モデルとして牽引力を獲得しました。
深いGPSの後方推論には、サンプリングまたはより通常、変分近似が必要です。
変分近似は、大規模な確率的で非凸最適化の問題につながり、結果の近似は不確実性を誤って表す傾向があります。
この作業では、変分学習とMCMCを組み合わせて、粒子ベースの期待値模倣方法を開発し、同時に大規模なデータ内(バリエーション)内の誘導点を見つけ、GPS(サンプリングベース)を正確にトレーニングします。
その結果、大規模なデータに関する深いGPトレーニングのための非常に効率的で正確な方法論があります。
標準のベンチマークの問題に関する方法をテストします。

要約(オリジナル)

Gaussian processes (GPs) have gained popularity as flexible machine learning models for regression and function approximation with an in-built method for uncertainty quantification. However, GPs suffer when the amount of training data is large or when the underlying function contains multi-scale features that are difficult to represent by a stationary kernel. To address the former, training of GPs with large-scale data is often performed through inducing point approximations (also known as sparse GP regression (GPR)), where the size of the covariance matrices in GPR is reduced considerably through a greedy search on the data set. To aid the latter, deep GPs have gained traction as hierarchical models that resolve multi-scale features by combining multiple GPs. Posterior inference in deep GPs requires a sampling or, more usual, a variational approximation. Variational approximations lead to large-scale stochastic, non-convex optimisation problems and the resulting approximation tends to represent uncertainty incorrectly. In this work, we combine variational learning with MCMC to develop a particle-based expectation-maximisation method to simultaneously find inducing points within the large-scale data (variationally) and accurately train the GPs (sampling-based). The result is a highly efficient and accurate methodology for deep GP training on large-scale data. We test our method on standard benchmark problems.

arxiv情報

著者 Simon Urbainczyk,Aretha L. Teckentrup,Jonas Latz
発行日 2025-05-16 15:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML | STRIDE: Sparse Techniques for Regression in Deep Gaussian Processes はコメントを受け付けていません