Explosive Jumping with Rigid and Articulated Soft Quadrupeds via Example Guided Reinforcement Learning

要約

四足動物の制御されたジャンプ動作を達成することは、特に機械設計にパッシブコンプライアンスを導入する場合、困難な作業です。
この研究では、進歩的なトレーニングプロセスを備えた模倣ベースのディープ補強学習を介して、この課題に対処します。
まず、モデルベースの軌道最適化によって生成された粗いジャンプ例を模倣することにより、ジャンプスキルを学びます。
その後、学習したポリシーを、前方方向と横方向の両方のさまざまな距離を含む、より広範な状況に一般化し、未知の地面の不均一性で堅牢なジャンプを追求します。
さらに、報酬をあまり調整せずに、並行した弾力性を備えた4倍のジャンプポリシーを学びます。
結果は、提案された方法を使用して、i)ロボットは単一のデモンストレーションからのみ学習することで多用途のジャンプを学習することを示しています。ii)並列コンプライアンスを備えたロボットは、着陸誤差を11.1%削減し、エネルギーコストを15.2%節約し、普通の伸縮性のないロボット(III)でのパラレルエラスターでの範囲外のun(III)を越えて並列式の拡張を行うことができます。
高さ4cmの摂動)固有受容のみのみを使用します。

要約(オリジナル)

Achieving controlled jumping behaviour for a quadruped robot is a challenging task, especially when introducing passive compliance in mechanical design. This study addresses this challenge via imitation-based deep reinforcement learning with a progressive training process. To start, we learn the jumping skill by mimicking a coarse jumping example generated by model-based trajectory optimization. Subsequently, we generalize the learned policy to broader situations, including various distances in both forward and lateral directions, and then pursue robust jumping in unknown ground unevenness. In addition, without tuning the reward much, we learn the jumping policy for a quadruped with parallel elasticity. Results show that using the proposed method, i) the robot learns versatile jumps by learning only from a single demonstration, ii) the robot with parallel compliance reduces the landing error by 11.1%, saves energy cost by 15.2% and reduces the peak torque by 15.8%, compared to the rigid robot without parallel elasticity, iii) the robot can perform jumps of variable distances with robustness against ground unevenness (maximal 4cm height perturbations) using only proprioceptive perception.

arxiv情報

著者 Georgios Apostolides,Wei Pan,Jens Kober,Cosimo Della Santina,Jiatao Ding
発行日 2025-03-20 14:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Explosive Jumping with Rigid and Articulated Soft Quadrupeds via Example Guided Reinforcement Learning はコメントを受け付けていません

Dispersion is (Almost) Optimal under (A)synchrony

要約

分散の問題は、分散コンピューティングの文献で最近多くの注目を集めています。
この問題では、$ n $ -Nodeのノードに最初に任意に配置された$ k \ leq n $エージェント、$ m $ $ edge anonymous and of of maximut $ \ delta $のグラフは、各エージェントがグラフの異なるノード上にある構成に到達するために自律的に再配置する必要があります。
分散は、探査、散乱、負荷分散、自己主導の電気自動車(ロボット)のリチャージステーション(ノード)などのグラフ上のモバイルエージェントによる多くの基本的な調整の問題とのつながりがあるため、興味深いものであり、重要です。目的は、同時に時間と記憶の複雑さを最適化するソリューションを提供することでした。
時間の複雑さの下限が$ \ omega(k)$であるグラフが存在します。
メモリの複雑さは、グラフトポロジとは無関係にエージェントごとに$ \ omega(\ log k)$です。
最先端のアルゴリズムには、(i)時間の複雑さ$ o(k \ log^2k)$およびメモリの複雑さ$ o(\ log(k+\ delta))$が同期設定[disc’24]および(ii)時間の複雑さ$ o(\ min \ {m、k \ delta \})$ o log
非同期設定[Opodis’21]。
この論文では、この最先端について大幅に改善しています。
[disc’24]のように同期設定では、メモリの複雑さを維持する最初の最適な$ o(k)$ timeアルゴリズムを提示します$ o(\ log(k+\ delta))$。
[opodis’21]のような非同期設定では、最初のアルゴリズムを時間の複雑さを備えています。
両方の結果は、エージェントを沈殿させる空のノードを迅速に見つけるための新しい技術を通じて得られました。

要約(オリジナル)

The dispersion problem has received much attention recently in the distributed computing literature. In this problem, $k\leq n$ agents placed initially arbitrarily on the nodes of an $n$-node, $m$-edge anonymous graph of maximum degree $\Delta$ have to reposition autonomously to reach a configuration in which each agent is on a distinct node of the graph. Dispersion is interesting as well as important due to its connections to many fundamental coordination problems by mobile agents on graphs, such as exploration, scattering, load balancing, relocation of self-driven electric cars (robots) to recharge stations (nodes), etc. The objective has been to provide a solution that optimizes simultaneously time and memory complexities. There exist graphs for which the lower bound on time complexity is $\Omega(k)$. Memory complexity is $\Omega(\log k)$ per agent independent of graph topology. The state-of-the-art algorithms have (i) time complexity $O(k\log^2k)$ and memory complexity $O(\log(k+\Delta))$ under the synchronous setting [DISC’24] and (ii) time complexity $O(\min\{m,k\Delta\})$ and memory complexity $O(\log(k+\Delta))$ under the asynchronous setting [OPODIS’21]. In this paper, we improve substantially on this state-of-the-art. Under the synchronous setting as in [DISC’24], we present the first optimal $O(k)$ time algorithm keeping memory complexity $O(\log (k+\Delta))$. Under the asynchronous setting as in [OPODIS’21], we present the first algorithm with time complexity $O(k\log k)$ keeping memory complexity $O(\log (k+\Delta))$, which is time-optimal within an $O(\log k)$ factor despite asynchrony. Both results were obtained through novel techniques to quickly find empty nodes to settle agents, which may be of independent interest.

arxiv情報

著者 Ajay D. Kshemkalyani,Manish Kumar,Anisur Rahaman Molla,Gokarna Sharma
発行日 2025-03-20 15:09:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.DS, cs.MA, cs.RO | Dispersion is (Almost) Optimal under (A)synchrony はコメントを受け付けていません

Loop Closure from Two Views: Revisiting PGO for Scalable Trajectory Estimation through Monocular Priors

要約

(視覚)同時ローカリゼーションとマッピング(SLAM)は、自律システムが大規模な環境をナビゲートして理解できるようにする上での根本的な課題のままです。
従来のSLAMアプローチは、特にシーンの再構築とバンドル調整(BA)に広範な計算リソースが必要な大規模な設定で、効率と精度のバランスをとるのに苦労しています。
ただし、視覚的ランドマークのまばらなポイントクラウドの形式でのこのシーンの再構築は、ナビゲーションと計画方法に異なるマップ表現が必要であるため、スラムシステム内でのみ使用されることがよくあります。
したがって、この作業では、主に2ビューループクロージャーのアプローチに基づいて、再構成なしに、よりスケーラブルな視覚スラム(VSLAM)アプローチを調査します。
密度の高いジオメトリ表現のないまばらなキーフレームポーズグラフにマップを制限することにより、当社の「2GO」システムは、競争力のある絶対軌道精度で効率的な最適化を実現します。
特に、画像マッチングと単眼の深さの前の最近の進歩により、2ビューエッジからの非常に正確な軌跡の最適化が可能になることがわかります。
大規模なシナリオを含む多様なデータセットで広範な実験を実施し、ランタイム、精度、マップサイズのトレードオフの詳細な分析を提供します。
私たちの結果は、この合理化されたアプローチがリアルタイムのパフォーマンスをサポートし、マップサイズと軌道の持続時間を十分に拡大し、大規模な環境への長期にわたる展開のためにVSLAMの機能を効果的に広げることを示しています。

要約(オリジナル)

(Visual) Simultaneous Localization and Mapping (SLAM) remains a fundamental challenge in enabling autonomous systems to navigate and understand large-scale environments. Traditional SLAM approaches struggle to balance efficiency and accuracy, particularly in large-scale settings where extensive computational resources are required for scene reconstruction and Bundle Adjustment (BA). However, this scene reconstruction, in the form of sparse pointclouds of visual landmarks, is often only used within the SLAM system because navigation and planning methods require different map representations. In this work, we therefore investigate a more scalable Visual SLAM (VSLAM) approach without reconstruction, mainly based on approaches for two-view loop closures. By restricting the map to a sparse keyframed pose graph without dense geometry representations, our ‘2GO’ system achieves efficient optimization with competitive absolute trajectory accuracy. In particular, we find that recent advancements in image matching and monocular depth priors enable very accurate trajectory optimization from two-view edges. We conduct extensive experiments on diverse datasets, including large-scale scenarios, and provide a detailed analysis of the trade-offs between runtime, accuracy, and map size. Our results demonstrate that this streamlined approach supports real-time performance, scales well in map size and trajectory duration, and effectively broadens the capabilities of VSLAM for long-duration deployments to large environments.

arxiv情報

著者 Tian Yi Lim,Boyang Sun,Marc Pollefeys,Hermann Blum
発行日 2025-03-20 16:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Loop Closure from Two Views: Revisiting PGO for Scalable Trajectory Estimation through Monocular Priors はコメントを受け付けていません

Can Real-to-Sim Approaches Capture Dynamic Fabric Behavior for Robotic Fabric Manipulation?

要約

この論文では、ロボット工学におけるファブリック操作のための実際のパラメーター推定アプローチの厳密な評価を提示します。
この研究では、3つの最先端のアプローチ、つまり2つの差異パイプラインとデータ駆動型アプローチを体系的に評価します。
また、物理学パラメーター推定のための新しい物理学に基づいたニューラルネットワークアプローチも考案します。
これらのアプローチには、5つの異なるファブリックタイプの複数の実際のシナリオ(リフティング、風の吹き付け、ストレッチ)にわたって2つのシミュレーションがインターフェースされ、3つの目に見えないシナリオ(折りたたみ、投げ、揺れ)で評価されます。
シミュレーションエンジンと実際のアプローチの選択が、評価シナリオでファブリック操作のパフォーマンスに大きな影響を与えることがわかりました。
さらに、PINNは準静的タスクで優れたパフォーマンスを観察しますが、動的なシナリオで制限を示しています。

要約(オリジナル)

This paper presents a rigorous evaluation of Real-to-Sim parameter estimation approaches for fabric manipulation in robotics. The study systematically assesses three state-of-the-art approaches, namely two differential pipelines and a data-driven approach. We also devise a novel physics-informed neural network approach for physics parameter estimation. These approaches are interfaced with two simulations across multiple Real-to-Sim scenarios (lifting, wind blowing, and stretching) for five different fabric types and evaluated on three unseen scenarios (folding, fling, and shaking). We found that the simulation engines and the choice of Real-to-Sim approaches significantly impact fabric manipulation performance in our evaluation scenarios. Moreover, PINN observes superior performance in quasi-static tasks but shows limitations in dynamic scenarios.

arxiv情報

著者 Yingdong Ru,Lipeng Zhuang,Zhuo He,Florent P. Audonnet,Gerardo Aragon-Caramasa
発行日 2025-03-20 16:34:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Can Real-to-Sim Approaches Capture Dynamic Fabric Behavior for Robotic Fabric Manipulation? はコメントを受け付けていません

Machine learning identifies nullclines in oscillatory dynamical systems

要約

振動時系列データからヌルクリンの隠された構造を明らかにするニューラルネットワークベースの方法であるCline(Nullclinesの計算学習と識別)を紹介します。
システムのダイナミクスの直接予測を目指す従来のアプローチとは異なり、Clineは、状態変数間の(非)線形関係をコードする位相空間の静的な幾何学的特徴を識別します。
複数の時間スケールや強い非線形性などの課題を克服し、シンボリックな微分方程式に変換可能な解釈可能な結果を​​生成します。
さまざまな振動システムでClineを検証し、その有効性を紹介します。

要約(オリジナル)

We introduce CLINE (Computational Learning and Identification of Nullclines), a neural network-based method that uncovers the hidden structure of nullclines from oscillatory time series data. Unlike traditional approaches aiming at direct prediction of system dynamics, CLINE identifies static geometric features of the phase space that encode the (non)linear relationships between state variables. It overcomes challenges such as multiple time scales and strong nonlinearities while producing interpretable results convertible into symbolic differential equations. We validate CLINE on various oscillatory systems, showcasing its effectiveness.

arxiv情報

著者 Bartosz Prokop,Jimmy Billen,Nikita Frolov,Lendert Gelens
発行日 2025-03-20 15:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.DS, nlin.AO, physics.comp-ph | Machine learning identifies nullclines in oscillatory dynamical systems はコメントを受け付けていません

OpenMIBOOD: Open Medical Imaging Benchmarks for Out-Of-Distribution Detection

要約

ヘルスケアなどの重要なドメインにおける人工知能(AI)への依存度は、特に予期しない入力または異常な入力に直面している場合、これらのシステムの信頼性を確保するために堅牢なメカニズムを要求します。
このペーパーでは、分散排出検出のためのオープンメディカルイメージングベンチマーク(OpenMibood)を紹介します。これは、特に医療イメージングのコンテキストで、分散除外(OOD)検出方法を評価するための包括的なフレームワークです。
OpenMiboodには、多様な医療ドメインからの3つのベンチマークが含まれており、共変量シフト中の分布、近距離、およびファーウドカテゴリに分割された14のデータセットが含まれています。
これらのベンチマーク全体で24の事後メソッドを評価し、OOD検出方法の開発と公正な比較を進めるための標準化された参照を提供します。
結果は、自然画像ドメインの広範なOODベンチマークからの調査結果が医療用途に変換されず、医療分野のそのようなベンチマークの重要なニーズを強調していることを明らかにしています。
OpenMiboodは、AIモデルをトレーニング分布の外側の入力にさらすリスクを軽減することにより、ヘルスケアにおける信頼できる信頼できるAIシステムの進歩をサポートすることを目指しています。
リポジトリはhttps://github.com/remic-othr/openmiboodで入手できます。

要約(オリジナル)

The growing reliance on Artificial Intelligence (AI) in critical domains such as healthcare demands robust mechanisms to ensure the trustworthiness of these systems, especially when faced with unexpected or anomalous inputs. This paper introduces the Open Medical Imaging Benchmarks for Out-Of-Distribution Detection (OpenMIBOOD), a comprehensive framework for evaluating out-of-distribution (OOD) detection methods specifically in medical imaging contexts. OpenMIBOOD includes three benchmarks from diverse medical domains, encompassing 14 datasets divided into covariate-shifted in-distribution, near-OOD, and far-OOD categories. We evaluate 24 post-hoc methods across these benchmarks, providing a standardized reference to advance the development and fair comparison of OOD detection methods. Results reveal that findings from broad-scale OOD benchmarks in natural image domains do not translate to medical applications, underscoring the critical need for such benchmarks in the medical field. By mitigating the risk of exposing AI models to inputs outside their training distribution, OpenMIBOOD aims to support the advancement of reliable and trustworthy AI systems in healthcare. The repository is available at https://github.com/remic-othr/OpenMIBOOD.

arxiv情報

著者 Max Gutbrod,David Rauber,Danilo Weber Nunes,Christoph Palm
発行日 2025-03-20 15:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | OpenMIBOOD: Open Medical Imaging Benchmarks for Out-Of-Distribution Detection はコメントを受け付けていません

emg2qwerty: A Large Dataset with Baselines for Touch Typing using Surface Electromyography

要約

表面筋電図(SEMG)は、個々の脊椎ニューロンと豊かさを検出するのに十分な感度を持つ筋肉活動によって生成された非侵襲的測定信号と、数十のジェスチャーとそのニュアンスを特定します。
ウェアラブルリストベースのSEMGセンサーは、低摩擦、微妙、情報が豊富で、常に利用可能な人間コンピューター入力を提供する可能性があります。
この目的のために、QWERTYキーボードをタッチしながら、手首に記録された非侵襲的な筋電図信号の大規模なデータセットであるEMG2QWERTYを紹介します。
108人のユーザーと346時間の録音にまたがる1,135セッションで、これはこれまでで最大のパブリックデータセットです。
これらのデータは、ニューロンから筋肉と筋肉の組み合わせ、およびユーザーとユーザーセッション全体のドメインシフトの観点から、生成プロセスの両方の点で、非自明であるが明確に定義された階層的な関係を示しています。
密接に関連する自動音声認識の分野(ASR)から標準モデリング手法を適用すると、SEMG信号のみを使用してキープレスの予測に強いベースラインパフォーマンスを示します。
このタスクとデータセットの豊かさは、機械学習と神経科学コミュニティの両方にとって、関心のあるいくつかの問題の進展を促進すると考えています。
データセットとコードは、https://github.com/facebookresearch/emg2qwertyでアクセスできます。

要約(オリジナル)

Surface electromyography (sEMG) non-invasively measures signals generated by muscle activity with sufficient sensitivity to detect individual spinal neurons and richness to identify dozens of gestures and their nuances. Wearable wrist-based sEMG sensors have the potential to offer low friction, subtle, information rich, always available human-computer inputs. To this end, we introduce emg2qwerty, a large-scale dataset of non-invasive electromyographic signals recorded at the wrists while touch typing on a QWERTY keyboard, together with ground-truth annotations and reproducible baselines. With 1,135 sessions spanning 108 users and 346 hours of recording, this is the largest such public dataset to date. These data demonstrate non-trivial, but well defined hierarchical relationships both in terms of the generative process, from neurons to muscles and muscle combinations, as well as in terms of domain shift across users and user sessions. Applying standard modeling techniques from the closely related field of Automatic Speech Recognition (ASR), we show strong baseline performance on predicting key-presses using sEMG signals alone. We believe the richness of this task and dataset will facilitate progress in several problems of interest to both the machine learning and neuroscientific communities. Dataset and code can be accessed at https://github.com/facebookresearch/emg2qwerty.

arxiv情報

著者 Viswanath Sivakumar,Jeffrey Seely,Alan Du,Sean R Bittner,Adam Berenzweig,Anuoluwapo Bolarinwa,Alexandre Gramfort,Michael I Mandel
発行日 2025-03-20 15:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, eess.AS, H.1.2 | emg2qwerty: A Large Dataset with Baselines for Touch Typing using Surface Electromyography はコメントを受け付けていません

Lower Bounds for Chain-of-Thought Reasoning in Hard-Attention Transformers

要約

考え方の推論とスクラッチパッドは、変圧器の計算能力を強化するための重要なツールとして浮上しています。
理論的な結果は、多項式長のスクラッチパッドがトランスの表現力を$ tc^0 $から$ ptime $に拡張できることを示していますが、必要な長さはよく理解されていないままです。
経験的証拠は、パリティや乗算など、$ tc^0 $の多くの問題に対しても、トランスがスクラッチパッドを必要とすることさえ示唆しています。
この作業では、ハードアテンション体制におけるさまざまなアルゴリズム問題にわたるCOTステップの数の系統的な下限の研究を開始します。
さまざまなアルゴリズムの問​​題を研究し、対数要因にぴったりの境界を提供します。
全体として、これらの結果は、考え方の推論の力と限界に対する新たな理解に貢献します。

要約(オリジナル)

Chain-of-thought reasoning and scratchpads have emerged as critical tools for enhancing the computational capabilities of transformers. While theoretical results show that polynomial-length scratchpads can extend transformers’ expressivity from $TC^0$ to $PTIME$, their required length remains poorly understood. Empirical evidence even suggests that transformers need scratchpads even for many problems in $TC^0$, such as Parity or Multiplication, challenging optimistic bounds derived from circuit complexity. In this work, we initiate the study of systematic lower bounds for the number of CoT steps across different algorithmic problems, in the hard-attention regime. We study a variety of algorithmic problems, and provide bounds that are tight up to logarithmic factors. Overall, these results contribute to emerging understanding of the power and limitations of chain-of-thought reasoning.

arxiv情報

著者 Alireza Amiri,Xinting Huang,Mark Rofin,Michael Hahn
発行日 2025-03-20 15:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.LG | Lower Bounds for Chain-of-Thought Reasoning in Hard-Attention Transformers はコメントを受け付けていません

Langevin Monte-Carlo Provably Learns Depth Two Neural Nets at Any Size and Data

要約

この作業では、Langevin Monte-Carloアルゴリズムがあらゆるサイズの深さ2ニューラルネットを学習できることを確認します。
これは、総変動距離とQ-Renyiの発散の下で、ランジュビンモンテカルロの反復が、スムーズな活性化と分類設定と回帰設定の両方で、これらのネットのいずれかのFrobenius Normの正規化された損失のギブス分布に収束することを示します。
最も重要なことは、結果に必要な正則化の量は、ネットのサイズとは無関係です。
この結果は、2層の神経損失関数が常に一定の一定の量によって常に正規化されるように、彼らがvillani条件を満たすことができることを示す私たちの以前の論文のように、いくつかの最近の観察を組み合わせています。

要約(オリジナル)

In this work, we will establish that the Langevin Monte-Carlo algorithm can learn depth-2 neural nets of any size and for any data and we give non-asymptotic convergence rates for it. We achieve this via showing that under Total Variation distance and q-Renyi divergence, the iterates of Langevin Monte Carlo converge to the Gibbs distribution of Frobenius norm regularized losses for any of these nets, when using smooth activations and in both classification and regression settings. Most critically, the amount of regularization needed for our results is independent of the size of the net. This result combines several recent observations, like our previous papers showing that two-layer neural loss functions can always be regularized by a certain constant amount such that they satisfy the Villani conditions, and thus their Gibbs measures satisfy a Poincare inequality.

arxiv情報

著者 Dibyakanti Kumar,Samyak Jha,Anirbit Mukherjee
発行日 2025-03-20 15:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.FA, math.PR | Langevin Monte-Carlo Provably Learns Depth Two Neural Nets at Any Size and Data はコメントを受け付けていません

Rethinking Robustness in Machine Learning: A Posterior Agreement Approach

要約

共変量シフトに対するアルゴリズムの堅牢性は、現実世界における機械学習アルゴリズムの展開に重大な意味を持つ基本的な問題です。
現在の評価方法は、堅牢性の定義を主に標準的な一般化の定義と一致させ、精度ベースのスコアなどの標準的なメトリックに依存しており、パフォーマンス評価のために設計されていますが、分布シフトへの堅牢性を推定するための適用を含む理論的基盤がありません。
この作業では、Desiderataを堅牢性メトリックのために設定し、モデル検証の事後一致(PA)理論に直接従う堅牢性評価問題の新しい原則的なフレームワークを提案します。
具体的には、PAフレームワークを、監視された分類タスクで堅牢性評価のためにPAメトリックを提案することにより、共変量シフト設定に拡張します。
制御された環境におけるメトリックの健全性を評価し、2つの異なる共変量シフトシナリオでの経験的堅牢性分析を通じて評価します:敵対的な学習とドメインの一般化。
シフトの異なる性質と大きさ、および影響を受ける観察の割合の下でいくつかのモデルを評価することにより、PAの適合性を示します。
結果は、PAメトリックが、摂取された観測が少ない場合でも、学習アルゴリズムの脆弱性の賢明で一貫した分析を提供することを示しています。

要約(オリジナル)

The robustness of algorithms against covariate shifts is a fundamental problem with critical implications for the deployment of machine learning algorithms in the real world. Current evaluation methods predominantly match the robustness definition to that of standard generalization, relying on standard metrics like accuracy-based scores, which, while designed for performance assessment, lack a theoretical foundation encompassing their application in estimating robustness to distribution shifts. In this work, we set the desiderata for a robustness metric, and we propose a novel principled framework for the robustness assessment problem that directly follows the Posterior Agreement (PA) theory of model validation. Specifically, we extend the PA framework to the covariate shift setting by proposing a PA metric for robustness evaluation in supervised classification tasks. We assess the soundness of our metric in controlled environments and through an empirical robustness analysis in two different covariate shift scenarios: adversarial learning and domain generalization. We illustrate the suitability of PA by evaluating several models under different nature and magnitudes of shift, and proportion of affected observations. The results show that the PA metric provides a sensible and consistent analysis of the vulnerabilities in learning algorithms, even in the presence of few perturbed observations.

arxiv情報

著者 João Borges S. Carvalho,Alessandro Torcinovich,Victor Jimenez Rodriguez,Antonio E. Cinà,Carlos Cotrini,Lea Schönherr,Joachim M. Buhmann
発行日 2025-03-20 16:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Rethinking Robustness in Machine Learning: A Posterior Agreement Approach はコメントを受け付けていません