Proprioceptive State Estimation for Quadruped Robots using Invariant Kalman Filtering and Scale-Variant Robust Cost Functions

要約

正確な状態推定は、制御とナビゲーションを可能にするために必要な情報を提供するため、脚式ロボットの移動にとって非常に重要です。
ただし、特にでこぼこした滑りやすい地形のシナリオでは、それは困難でもあります。
この論文では、固有受容センサーのみを使用して脚式ロボットの状態を推定するための新しい不変拡張カルマン フィルターを紹介します。
状態推定理論の最近の進歩と測定更新におけるロバストなコスト関数の使用を組み合わせることにより、方法論を定式化します。
私たちは実験と公開データセットを通じて四足ロボットで方法論をテストし、最先端の不変拡張カルマン フィルターと比較して、450 メートル以上の距離をカバーする軌道で最大 40% 低い姿勢ドリフトを取得できることを示しました。

要約(オリジナル)

Accurate state estimation is crucial for legged robot locomotion, as it provides the necessary information to allow control and navigation. However, it is also challenging, especially in scenarios with uneven and slippery terrain. This paper presents a new Invariant Extended Kalman filter for legged robot state estimation using only proprioceptive sensors. We formulate the methodology by combining recent advances in state estimation theory with the use of robust cost functions in the measurement update. We tested our methodology on quadruped robots through experiments and public datasets, showing that we can obtain a pose drift up to 40% lower in trajectories covering a distance of over 450m, in comparison with a state-of-the-art Invariant Extended Kalman filter.

arxiv情報

著者 Hilton Marques Souza Santana,João Carlos Virgolino Soares,Ylenia Nisticò,Marco Antonio Meggiolaro,Claudio Semini
発行日 2024-10-07 17:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

PAMLR: A Passive-Active Multi-Armed Bandit-Based Solution for LoRa Channel Allocation

要約

都市環境における低電力ワイヤレス ネットワークで低デューティ サイクル動作を実現することは、外部干渉とフェージングの複雑で変動するダイナミクスによって複雑になります。
私たちは、チャネルの最適な選択というタスクで低消費電力を達成するための強化学習の使用を検討します。
学習は、外部干渉に対処するためのパッシブ チャネル サンプリングとフェージングに対処するためのアクティブ チャネル サンプリングのハイブリッドに依存します。
当社のソリューションである LoRa 用パッシブ-アクティブ マルチアーム バンディット (PAMLR、「パメラ」と発音) は、2 種類のサンプルのバランスをとってエネルギー効率の高いチャネル選択を実現します。アクティブ チャネル測定は、ノイズしきい値を更新するために適切な低レベルに調整されます。
そして、パッシブチャネル測定を補償するために、ノイズ閾値を使用したチャネル探索から最上位のチャネルを選択するために、適切な高レベルに調整されます。
両方のタイプのサンプルのレートは、チャネルのダイナミクスに応じて調整されます。
さまざまな都市の複数の環境での広範なテストに基づいて、チャネル測定に関連するエネルギー コストを大幅に最小限に抑えながら、最適なチャネル割り当てポリシーと比較して低い SNR リグレスによって示されるように、PAMLR が優れた通信品質を維持できることを検証しました。

要約(オリジナル)

Achieving low duty cycle operation in low-power wireless networks in urban environments is complicated by the complex and variable dynamics of external interference and fading. We explore the use of reinforcement learning for achieving low power consumption for the task of optimal selection of channels. The learning relies on a hybrid of passive channel sampling for dealing with external interference and active channel sampling for dealing with fading. Our solution, Passive-Active Multi-armed bandit for LoRa (PAMLR, pronounced ‘Pamela’), balances the two types of samples to achieve energy-efficient channel selection: active channel measurements are tuned to an appropriately low level to update noise thresholds, and to compensate passive channel measurements are tuned to an appropriately high level for selecting the top-most channels from channel exploration using the noise thresholds. The rates of both types of samples are adapted in response to channel dynamics. Based on extensive testing in multiple environments in different cities, we validate that PAMLR can maintain excellent communication quality, as demonstrated by a low SNR regret compared to the optimal channel allocation policy, while substantially minimizing the energy cost associated with channel measurements.

arxiv情報

著者 Jihoon Yun,Chengzhang Li,Anish Arora
発行日 2024-10-07 16:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI | コメントする

A Simulation-Free Deep Learning Approach to Stochastic Optimal Control

要約

確率的最適制御 (SOC) における一般的な問題を解決するためのシミュレーション不要のアルゴリズムを提案します。
既存の方法とは異なり、私たちのアプローチは随伴問題の解決を必要とせず、むしろギルサノフの定理を活用して、ポリシー上の SOC 目標の勾配を直接計算します。
これにより、ニューラル SDE フレームワークで使用される確率微分方程式 (SDE) による高価な逆伝播ステップが完全に回避されるため、ニューラル ネットワークによってパラメーター化された制御ポリシーの最適化を高速化できます。
特に、SOC の問題を高次元かつ長期的に解決できるようになります。
標準的な確率的最適制御問題、シュオーディンガー・フェルマープロセスの構築による非正規化分布からのサンプリング、事前訓練された拡散モデルの微調整など、アプリケーションのさまざまな領域におけるアプローチの効率性を実証します。
すべての場合において、私たちの方法は計算時間とメモリ効率の両方において既存の方法よりも優れていることが示されています。

要約(オリジナル)

We propose a simulation-free algorithm for the solution of generic problems in stochastic optimal control (SOC). Unlike existing methods, our approach does not require the solution of an adjoint problem, but rather leverages Girsanov theorem to directly calculate the gradient of the SOC objective on-policy. This allows us to speed up the optimization of control policies parameterized by neural networks since it completely avoids the expensive back-propagation step through stochastic differential equations (SDEs) used in the Neural SDE framework. In particular, it enables us to solve SOC problems in high dimension and on long time horizons. We demonstrate the efficiency of our approach in various domains of applications, including standard stochastic optimal control problems, sampling from unnormalized distributions via construction of a Schr\’odinger-F\’ollmer process, and fine-tuning of pre-trained diffusion models. In all cases our method is shown to outperform the existing methods in both the computing time and memory efficiency.

arxiv情報

著者 Mengjian Hua,Matthieu Laurière,Eric Vanden-Eijnden
発行日 2024-10-07 16:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | コメントする

The SkipSponge Attack: Sponge Weight Poisoning of Deep Neural Networks

要約

スポンジ攻撃は、ニューラル ネットワークのエネルギー消費と計算時間を増加させることを目的としています。
この作品では、SkipSponge と呼ばれる新しいスポンジ攻撃を紹介します。
SkipSponge は、わずかなデータ サンプルのみを使用して、事前トレーニングされたモデルのパラメーターに対して直接実行される初のスポンジ攻撃です。
私たちの実験では、SkipSponge が最新技術 (Sponge Poisoning) よりも少ないサンプルしか必要とせず、画像分類モデル、GAN、およびオートエンコーダーのエネルギー消費を増加させることができることを示しています。
我々は、ポイズニング防御が、SkipSponge に対する防御に特化して調整されていない場合 (つまり、ターゲット層のバイアス値を減少させる) には効果がないことを示します。
私たちの研究では、Sponge Poisoning よりも SkipSponge が GAN とオートエンコーダーに対してより効果的であることが示されています。
さらに、SkipSponge は被害者モデルの重みを大幅に変更する必要がないため、Sponge Poisoning よりもステルス性が高くなります。
私たちの実験では、攻撃者がデータセット全体の 1% にしかアクセスできず、エネルギー増加が最大 13% に達する場合でも、SkipSponge を実行できることが示されています。

要約(オリジナル)

Sponge attacks aim to increase the energy consumption and computation time of neural networks. In this work, we present a novel sponge attack called SkipSponge. SkipSponge is the first sponge attack that is performed directly on the parameters of a pre-trained model using only a few data samples. Our experiments show that SkipSponge can successfully increase the energy consumption of image classification models, GANs, and autoencoders requiring fewer samples than the state-of-the-art (Sponge Poisoning). We show that poisoning defenses are ineffective if not adjusted specifically for the defense against SkipSponge (i.e., they decrease target layer bias values). Our work shows that SkipSponge is more effective on the GANs and the autoencoders than Sponge Poisoning. Additionally, SkipSponge is stealthier than Sponge Poisoning as it does not require significant changes in the victim model’s weights. Our experiments indicate that SkipSponge can be performed even when an attacker has access to only 1% of the entire dataset and reaches up to 13% energy increase.

arxiv情報

著者 Jona te Lintelo,Stefanos Koffas,Stjepan Picek
発行日 2024-10-07 16:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | コメントする

Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

要約

自己回帰 LLM 推論のメモリ帯域幅制限の性質に対抗するために、以前の研究では投機的デコード フレームワークが提案されています。
投機的デコードを実行するために、小規模なドラフト モデルは入力シーケンスの継続候補を提案し、その後、基本モデルによって並行して検証されます。
最近の Medusa デコード フレームワークで使用されているように、ドラフト モデルを指定する 1 つの方法は、ベース モデルの隠れ状態で動作する、ドラフト ヘッドと呼ばれる軽量ヘッドのコレクションとして指定することです。
これまでのところ、既存のドラフト ヘッドはすべて順番に独立しています。つまり、候補継続内の先行するトークンとは無関係に、候補継続中のトークンを推測します。
この研究では、ドラフト ヘッドの推測の精度を大幅に向上させる、標準ドラフト ヘッドの逐次依存型ドロップイン代替品である Hydra ヘッドを提案します。
私たちは、ヒドラ ヘッドのトレーニング目標とアーキテクチャの設計空間をさらに調査し、慎重に調整されたヒドラ ヘッド レシピ (Hydra++ と呼ぶ) を提案します。これにより、メデューサ デコードと自己回帰デコードと比較して、デコード スループットがそれぞれ最大 1.31 倍と 2.70 倍向上します。

全体として、Hydra ヘッドは、標準のドラフト ヘッドに対するシンプルかつ十分な動機を持った介入であり、ドラフト ヘッドベースの投機的デコードのエンドツーエンドの速度を大幅に向上させます。
私たちはコードを https://github.com/zankner/Hydra で公開しています。

要約(オリジナル)

To combat the memory bandwidth-bound nature of autoregressive LLM inference, previous research has proposed the speculative decoding frame-work. To perform speculative decoding, a small draft model proposes candidate continuations of the input sequence that are then verified in parallel by the base model. One way to specify the draft model, as used in the recent Medusa decoding framework, is as a collection of lightweight heads, called draft heads, that operate on the base model’s hidden states. To date, all existing draft heads have been sequentially independent, meaning that they speculate tokens in the candidate continuation independently of any preceding tokens in the candidate continuation. In this work, we propose Hydra heads: a sequentially-dependent drop-in replacement for standard draft heads that significantly improves the accuracy of draft head speculation. We further explore the design space of Hydra head training objectives and architectures, and propose a carefully tuned Hydra head recipe, which we call Hydra++, that improves decoding throughput by up to 1.31x and 2.70x compared to Medusa decoding and autoregressive de-coding respectively. Overall, Hydra heads are a simple and well-motivated intervention on standard draft heads that significantly improve the end-to-end speed of draft head-based speculative decoding. We make our code publicly available at https://github.com/zankner/Hydra.

arxiv情報

著者 Zachary Ankner,Rishab Parthasarathy,Aniruddha Nrusimha,Christopher Rinard,Jonathan Ragan-Kelley,William Brandon
発行日 2024-10-07 16:21:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Are causal effect estimations enough for optimal recommendations under multitreatment scenarios?

要約

治療法の選択を決定する際には、因果効果推定分析を含めて、さまざまな治療法または対照の下での潜在的な結果を比較し、最適な選択を支援することが不可欠です。
ただし、個々の治療効果を推定するだけでは、真に最適な決定を行うには十分ではない可能性があります。
私たちの研究では、ポートフォリオや保険管理で一般的に使用される条件付きバリューアットリスクによって測定される推定の不確実性など、追加の基準を組み込むことでこの問題に対処しました。
治療の前後で継続的な結果を観察できるように、特定の予測条件を組み込みました。
私たちは、最適な治療効果が得られ、治療前のレベルよりも望ましい治療後の結果につながる治療を優先し、後者の状態を予測基準と呼びました。
これらを考慮して、複数の治療法を選択するための包括的な方法論を提案します。
私たちのアプローチは、従来の因果モデルを採用する前の準備ステップとして傾向スコアモデルをトレーニングすることにより、治療群と対照群の結果を比較するために重要な重複仮定の満足を保証します。
私たちの方法論の実際の応用を説明するために、それをクレジット カードの限度額調整問題に適用しました。
フィンテック企業の過去のデータを分析したところ、事実に反する予測のみに依存するのは適切な融資枠の変更には不十分であることがわかりました。
私たちが提案した追加基準を組み込むことで、政策のパフォーマンスが大幅に向上しました。

要約(オリジナル)

When making treatment selection decisions, it is essential to include a causal effect estimation analysis to compare potential outcomes under different treatments or controls, assisting in optimal selection. However, merely estimating individual treatment effects may not suffice for truly optimal decisions. Our study addressed this issue by incorporating additional criteria, such as the estimations’ uncertainty, measured by the conditional value-at-risk, commonly used in portfolio and insurance management. For continuous outcomes observable before and after treatment, we incorporated a specific prediction condition. We prioritized treatments that could yield optimal treatment effect results and lead to post-treatment outcomes more desirable than pretreatment levels, with the latter condition being called the prediction criterion. With these considerations, we propose a comprehensive methodology for multitreatment selection. Our approach ensures satisfaction of the overlap assumption, crucial for comparing outcomes for treated and control groups, by training propensity score models as a preliminary step before employing traditional causal models. To illustrate a practical application of our methodology, we applied it to the credit card limit adjustment problem. Analyzing a fintech company’s historical data, we found that relying solely on counterfactual predictions was inadequate for appropriate credit line modifications. Incorporating our proposed additional criteria significantly enhanced policy performance.

arxiv情報

著者 Sherly Alfonso-Sánchez,Kristina P. Sendova,Cristián Bravo
発行日 2024-10-07 16:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62-07, 62P05, cs.LG, stat.ML | コメントする

Machine Learning Based Optimal Design of Fibrillar Adhesives

要約

カブトムシ、クモ、ヤモリなどの動物で観察される原線維接着は、ナノスケールまたは顕微鏡レベルの原線維に依存して、「接触分割」によって表面接着を強化します。
この概念は、ロボット工学、輸送、医療にわたるエンジニアリング アプリケーションにインスピレーションを与えてきました。
最近の研究では、フィブリルの特性を機能的に段階的に調整することで接着性を向上できることが示唆されていますが、これは複雑な設計上の課題であり、単純化された形状でのみ検討されています。
接着剤設計では機械学習 (ML) が注目を集めていますが、フィブリルアレイのスケール最適化をターゲットとしたこれまでの試みはありませんでした。
この研究では、接着強度を最大化するためにフィブリルのコンプライアンスの分布を最適化する ML ベースのツールを提案します。
2 つのディープ ニューラル ネットワーク (DNN) を特徴とする当社のツールは、単純な形状に対する以前の設計結果を復元し、複雑な構成に対する新しいソリューションを導入します。
Predictor DNN はランダムなコンプライアンス分布に基づいて接着強度を推定し、Designer DNN は勾配ベースの最適化を使用して最大強度を得るためにコンプライアンスを最適化します。
当社の手法は、テストエラーを大幅に削減し、最適化プロセスを加速し、等荷重分散 (ELS) を達成することで耐破壊性を目的としたフィブリル接着剤および微細構造材料を設計するための高性能ソリューションを提供します。

要約(オリジナル)

Fibrillar adhesion, observed in animals like beetles, spiders, and geckos, relies on nanoscopic or microscopic fibrils to enhance surface adhesion via ‘contact splitting.’ This concept has inspired engineering applications across robotics, transportation, and medicine. Recent studies suggest that functional grading of fibril properties can improve adhesion, but this is a complex design challenge that has only been explored in simplified geometries. While machine learning (ML) has gained traction in adhesive design, no previous attempts have targeted fibril-array scale optimization. In this study, we propose an ML-based tool that optimizes the distribution of fibril compliance to maximize adhesive strength. Our tool, featuring two deep neural networks (DNNs), recovers previous design results for simple geometries and introduces novel solutions for complex configurations. The Predictor DNN estimates adhesive strength based on random compliance distributions, while the Designer DNN optimizes compliance for maximum strength using gradient-based optimization. Our method significantly reduces test error and accelerates the optimization process, offering a high-performance solution for designing fibrillar adhesives and micro-architected materials aimed at fracture resistance by achieving equal load sharing (ELS).

arxiv情報

著者 Mohammad Shojaeifard,Matteo Ferraresso,Alessandro Lucantonio,Mattia Bacca
発行日 2024-10-07 16:37:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Forest Proximities for Time Series

要約

RF-GAP は、改良されたランダム フォレスト近接測定として最近導入されました。
この論文では、RF-GAP の近接性を近接林に拡張した、正確かつ効率的な時系列分類モデルである PF-GAP を紹介します。
多次元尺度法と組み合わせて森林近接度を使用して、単変量時系列のベクトル埋め込みを取得し、その埋め込みをさまざまな時系列距離測定を使用して取得したベクトル埋め込みと比較します。
また、局所外れ値因子と併せて森林の近接性を使用して、時系列距離測定を使用する最近傍分類器と比較して、誤分類された点と外れ値の間の関係を調査します。
森林の近接性は、最近傍分類器よりも誤って分類された点と外れ値との間に強いつながりを示す可能性があることを示します。

要約(オリジナル)

RF-GAP has recently been introduced as an improved random forest proximity measure. In this paper, we present PF-GAP, an extension of RF-GAP proximities to proximity forests, an accurate and efficient time series classification model. We use the forest proximities in connection with Multi-Dimensional Scaling to obtain vector embeddings of univariate time series, comparing the embeddings to those obtained using various time series distance measures. We also use the forest proximities alongside Local Outlier Factors to investigate the connection between misclassified points and outliers, comparing with nearest neighbor classifiers which use time series distance measures. We show that the forest proximities may exhibit a stronger connection between misclassified points and outliers than nearest neighbor classifiers.

arxiv情報

著者 Ben Shaw,Jake Rhodes,Soukaina Filali Boubrahimi,Kevin R. Moon
発行日 2024-10-07 16:41:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts

要約

AI の導入の増加により、インターネットの将来の状況が形成され、AI エージェントの統合エコシステムとなる予定です。
AI エージェント間の相互作用を調整するには、個人の利益と社会福祉の間の緊張を調和させる、分散型で自立的なメカニズムが必要です。
この論文では、強化学習と経済学のプリンシパルエージェント理論を相乗させることで、この課題に取り組みます。
個別に考えると、前者は非現実的な介入の自由を許可しますが、後者は連続した設定で拡張するのに苦労します。
それらを組み合わせることで、両方の長所を実現できます。
私たちは、エージェントの行動の観察可能な結果に基づいてプリンシパルによる支払いを指定する一連の契約を使用して、プリンシパルがマルコフ決定プロセス (MDP) でエージェントをガイドするフレームワークを提案します。
プリンシパルとエージェントのポリシーを繰り返し最適化するメタアルゴリズムを提示して分析し、プリンシパルの Q 関数の短縮演算子との等価性と、サブゲーム完全均衡への収束を示します。
次に、ディープ Q ラーニングを使用してアルゴリズムを拡張し、理論的に、またランダムに生成されたバイナリ ゲーム ツリーを使用した実験を通じて、近似誤差が存在する場合のその収束を分析します。
私たちのフレームワークを複数のエージェントに拡張し、私たちの方法論を組み合わせコインゲームに適用します。
このマルチエージェントの逐次的な社会的ジレンマに対処することは、私たちのアプローチをより複雑な現実世界のインスタンスに拡張するための有望な第一歩となります。

要約(オリジナル)

The increasing deployment of AI is shaping the future landscape of the internet, which is set to become an integrated ecosystem of AI agents. Orchestrating the interaction among AI agents necessitates decentralized, self-sustaining mechanisms that harmonize the tension between individual interests and social welfare. In this paper we tackle this challenge by synergizing reinforcement learning with principal-agent theory from economics. Taken separately, the former allows unrealistic freedom of intervention, while the latter struggles to scale in sequential settings. Combining them achieves the best of both worlds. We propose a framework where a principal guides an agent in a Markov Decision Process (MDP) using a series of contracts, which specify payments by the principal based on observable outcomes of the agent’s actions. We present and analyze a meta-algorithm that iteratively optimizes the policies of the principal and agent, showing its equivalence to a contraction operator on the principal’s Q-function, and its convergence to subgame-perfect equilibrium. We then scale our algorithm with deep Q-learning and analyze its convergence in the presence of approximation error, both theoretically and through experiments with randomly generated binary game-trees. Extending our framework to multiple agents, we apply our methodology to the combinatorial Coin Game. Addressing this multi-agent sequential social dilemma is a promising first step toward scaling our approach to more complex, real-world instances.

arxiv情報

著者 Dima Ivanov,Paul Dütting,Inbal Talgam-Cohen,Tonghan Wang,David C. Parkes
発行日 2024-10-07 16:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.MA | コメントする

Matrix-weighted networks for modeling multidimensional dynamics

要約

ネットワークは、複雑なシステム内の相互作用をモデル化するための強力なツールです。
従来のネットワークはスカラー エッジの重みを使用しますが、現実世界のシステムの多くは多次元の相互作用を伴います。
たとえば、ソーシャル ネットワークでは、個人が相互に関連した複数の意見を持っていることがよくあり、それが他の個人のさまざまな意見に影響を与える可能性があり、マトリックスによってより適切に特徴付けることができます。
我々は、このような多次元相互作用ダイナミクスをモデル化するための新しい一般的なフレームワークである行列重み付けネットワーク (MWN) を提案します。
我々は、MWN の数学的基礎を提示し、この文脈におけるコンセンサス ダイナミクスとランダム ウォークを調査します。
私たちの結果は、MWN の一貫性が、従来のネットワークにおけるコミュニティと構造的バランスの概念を一般化する非自明な定常状態を引き起こすことを明らかにしました。

要約(オリジナル)

Networks are powerful tools for modeling interactions in complex systems. While traditional networks use scalar edge weights, many real-world systems involve multidimensional interactions. For example, in social networks, individuals often have multiple interconnected opinions that can affect different opinions of other individuals, which can be better characterized by matrices. We propose a novel, general framework for modeling such multidimensional interacting dynamics: matrix-weighted networks (MWNs). We present the mathematical foundations of MWNs and examine consensus dynamics and random walks within this context. Our results reveal that the coherence of MWNs gives rise to non-trivial steady states that generalize the notions of communities and structural balance in traditional networks.

arxiv情報

著者 Yu Tian,Sadamori Kojaku,Hiroki Sayama,Renaud Lambiotte
発行日 2024-10-07 16:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 05C22, 05C50, 05C81, 37E25, 39A06, 91D30, 94C15, cs.LG, cs.SI, math-ph, math.MP, physics.soc-ph | コメントする