Extremum Seeking Controlled Wiggling for Tactile Insertion

要約

人間は、コップを食器棚に入れる、ケーブルを配線する、鍵を挿すなどの挿入作業を行う際、対象物をくねらせ、触覚や固有感覚フィードバックを通じてその過程を観察する。近年の触覚センサの進歩により、触覚に基づくアプローチが実現されているが、人間の行動に類似したくねくね動作に基づく一般化された定式化は行われていない。そこで我々は、鍵の種類に大きなばらつきがあるにもかかわらず、制御パラメータを調整することなく、4種類の鍵を4種類の鍵に挿入できる極値探索制御則を提案する。その結果、モデルフリー定式化は、鍵を把持するGelSight Mini触覚センサによって測定されるひずみを最小化しながら、挿入深さを最大化するようにエンドエフェクタのポーズをくねらせる。このアルゴリズムは、並進と姿勢の両方が不確かな状態で、ランダムに初期化した120回の試行で71%の成功率を達成した。240回の決定論的に初期化された試行(並進または回転パラメータが1つだけ摂動される)では、84%の試行が成功した。13Hzの触覚フィードバックが与えられた場合、これらの試行グループの平均挿入時間はそれぞれ262秒と147秒である。

要約(オリジナル)

When humans perform insertion tasks such as inserting a cup into a cupboard, routing a cable, or key insertion, they wiggle the object and observe the process through tactile and proprioceptive feedback. While recent advances in tactile sensors have resulted in tactile-based approaches, there has not been a generalized formulation based on wiggling similar to human behavior. Thus, we propose an extremum-seeking control law that can insert four keys into four types of locks without control parameter tuning despite significant variation in lock type. The resulting model-free formulation wiggles the end effector pose to maximize insertion depth while minimizing strain as measured by a GelSight Mini tactile sensor that grasps a key. The algorithm achieves a 71\% success rate over 120 randomly initialized trials with uncertainty in both translation and orientation. Over 240 deterministically initialized trials, where only one translation or rotation parameter is perturbed, 84\% of trials succeeded. Given tactile feedback at 13 Hz, the mean insertion time for these groups of trials are 262 and 147 seconds respectively.

arxiv情報

著者 Levi Burner,Pavan Mantripragada,Gabriele M. Caddeo,Lorenzo Natale,Cornelia Fermüller,Yiannis Aloimonos
発行日 2024-10-03 15:37:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Trajectory Optimization with Global Yaw Parameterization for Field-of-View Constrained Autonomous Flight

要約

限られた視野のセンサーを持つクアッドローターの軌道生成は、空中探査、取材、検査、ビデオ撮影、ターゲット追跡など数多くの用途がある。ほとんどの先行研究は、ロボットの方位と速度を一致させるか、角度特異性を回避するために限定されたヨー領域を使用することで、候補軌道の実行可能空間を潜在的に制限することで、ヨー軌道の最適化タスクを単純化しています。本論文では、軌道最適化のための新規なヨーパラメータ化手法を提案する。このアプローチは、補足的な2次制約を含み、最終的な決定変数を所望の状態表現に変換することで、固有の特異点を効果的に回避する。この方法により、必要な制御工数が大幅に削減され、最適化の実現性が向上する。さらに、この方法を、ヨー軌道と位置軌道の両方を共同で最適化する必要のある、異なるアプリケーションのいくつかの例に適用する。最終的に、シミュレーションと実世界実験の両方における、提案手法の包括的な数値解析と評価を示す。

要約(オリジナル)

Trajectory generation for quadrotors with limited field-of-view sensors has numerous applications such as aerial exploration, coverage, inspection, videography, and target tracking. Most previous works simplify the task of optimizing yaw trajectories by either aligning the heading of the robot with its velocity, or potentially restricting the feasible space of candidate trajectories by using a limited yaw domain to circumvent angular singularities. In this paper, we propose a novel \textit{global} yaw parameterization method for trajectory optimization that allows a 360-degree yaw variation as demanded by the underlying algorithm. This approach effectively bypasses inherent singularities by including supplementary quadratic constraints and transforming the final decision variables into the desired state representation. This method significantly reduces the needed control effort, and improves optimization feasibility. Furthermore, we apply the method to several examples of different applications that require jointly optimizing over both the yaw and position trajectories. Ultimately, we present a comprehensive numerical analysis and evaluation of our proposed method in both simulation and real-world experiments.

arxiv情報

著者 Yuwei Wu,Yuezhan Tao,Igor Spasojevic,Vijay Kumar
発行日 2024-10-03 17:28:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

GUD: Generation with Unified Diffusion

要約

拡散生成モデルは、データサンプルに徐々にノイズを加えるプロセスを反転させることによって、ノイズをデータに変換する。異なるスケールのシステムを分析する物理学の繰り込み群の概念に触発され、我々は3つの重要な設計的側面を探求することによって拡散モデルを再検討する:1)拡散プロセスが動作する表現の選択(例:ピクセルベース、PCAベース、フーリエベース、ウェーブレットベース)、2)拡散中にデータが変換される事前分布(例:共分散$Sigma$を持つガウシアン)、3)データの異なる部分に別々に適用されるノイズレベルのスケジューリング(成分ごとのノイズスケジュールによって捕捉)。これらの選択に柔軟性を取り入れることで、設計の自由度を大幅に向上させた拡散生成モデルの統一的な枠組みを開発する。特に、標準的な拡散モデルと自己回帰モデル(任意のベース)の間を滑らかに補間するソフト条件モデルを導入し、これら2つのアプローチを概念的に橋渡しする。我々のフレームワークは、より効率的な学習とデータ生成につながる広い設計空間を開き、異なる生成アプローチと生成タスクを統合する新しいアーキテクチャへの道を開く。

要約(オリジナル)

Diffusion generative models transform noise into data by inverting a process that progressively adds noise to data samples. Inspired by concepts from the renormalization group in physics, which analyzes systems across different scales, we revisit diffusion models by exploring three key design aspects: 1) the choice of representation in which the diffusion process operates (e.g. pixel-, PCA-, Fourier-, or wavelet-basis), 2) the prior distribution that data is transformed into during diffusion (e.g. Gaussian with covariance $\Sigma$), and 3) the scheduling of noise levels applied separately to different parts of the data, captured by a component-wise noise schedule. Incorporating the flexibility in these choices, we develop a unified framework for diffusion generative models with greatly enhanced design freedom. In particular, we introduce soft-conditioning models that smoothly interpolate between standard diffusion models and autoregressive models (in any basis), conceptually bridging these two approaches. Our framework opens up a wide design space which may lead to more efficient training and data generation, and paves the way to novel architectures integrating different generative approaches and generation tasks.

arxiv情報

著者 Mathis Gerdes,Max Welling,Miranda C. N. Cheng
発行日 2024-10-03 16:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, hep-th, stat.ML | コメントする

DyGPrompt: Learning Feature and Time Prompts on Dynamic Graphs

要約

動的グラフは、ソーシャルネットワーク、オンライン学習プラットフォーム、クラウドソーシングプロジェクトなど、エンティティ間の進化する相互作用を捉える。動的グラフのモデリングには、動的グラフニューラルネットワーク(DGNN)が主流技術として登場している。しかし、DGNNは一般的にリンク予測タスクで事前学習されており、ノード分類のような下流タスクの目的とは大きな隔たりがある。このギャップを埋めるために、プロンプトベースの学習がグラフ上で注目を集めているが、既存の取り組みのほとんどは静的グラフに焦点を当て、動的グラフの進化を無視している。本稿では、動的グラフモデリングのための新しい事前学習とプロンプト学習のフレームワークであるDYGPROMPTを提案する。DYGPROMPTは、事前学習とプロンプト学習のフレームワークである。次に、ノードと時間の特徴が相互に特徴付け合うことを認識し、下流タスクにおける進化するノード時間パターンをモデル化するために、デュアル条件ネットを提案する。最後に、DYGPROMPTを4つの公開データセットで徹底的に評価・分析する。

要約(オリジナル)

Dynamic graphs capture evolving interactions between entities, such as in social networks, online learning platforms, and crowdsourcing projects. For dynamic graph modeling, dynamic graph neural networks (DGNNs) have emerged as a mainstream technique. However, they are generally pre-trained on the link prediction task, leaving a significant gap from the objectives of downstream tasks such as node classification. To bridge the gap, prompt-based learning has gained traction on graphs, but most existing efforts focus on static graphs, neglecting the evolution of dynamic graphs. In this paper, we propose DYGPROMPT, a novel pre-training and prompt learning framework for dynamic graph modeling. First, we design dual prompts to address the gap in both task objectives and temporal variations across pre-training and downstream tasks. Second, we recognize that node and time features mutually characterize each other, and propose dual condition-nets to model the evolving node-time patterns in downstream tasks. Finally, we thoroughly evaluate and analyze DYGPROMPT through extensive experiments on four public datasets.

arxiv情報

著者 Xingtong Yu,Zhenghao Liu,Yuan Fang,Xinming Zhang
発行日 2024-10-03 16:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

Signature Isolation Forest

要約

Functional Isolation Forest (FIF)は、機能データ用に設計された最新の異常検出(AD)アルゴリズムである。FIFは、線形内積を通して描画された辞書に各曲線観察を投影することにより異常スコアを計算する、ツリー分割手順に依存する。このような線形内積と辞書は、アルゴリズムの性能に大きく影響する先験的な選択であり、特に複雑なデータセットでは信頼できない結果につながる可能性がある。本研究では、ラフパス理論のシグネチャ変換を活用した新しいADアルゴリズムクラスである「シグネチャ分離フォレスト(Signature Isolation Forest)」を導入することで、これらの課題に対処する。我々の目的は、特にFIF内積の線形性と辞書の選択をターゲットとした2つのアルゴリズムの提案を通じて、FIFによって課される制約を取り除くことである。我々の手法の妥当性を示す実世界応用ベンチマークを含むいくつかの数値実験を提供する。

要約(オリジナル)

Functional Isolation Forest (FIF) is a recent state-of-the-art Anomaly Detection (AD) algorithm designed for functional data. It relies on a tree partition procedure where an abnormality score is computed by projecting each curve observation on a drawn dictionary through a linear inner product. Such linear inner product and the dictionary are a priori choices that highly influence the algorithm’s performances and might lead to unreliable results, particularly with complex datasets. This work addresses these challenges by introducing \textit{Signature Isolation Forest}, a novel AD algorithm class leveraging the rough path theory’s signature transform. Our objective is to remove the constraints imposed by FIF through the proposition of two algorithms which specifically target the linearity of the FIF inner product and the choice of the dictionary. We provide several numerical experiments, including a real-world applications benchmark showing the relevance of our methods.

arxiv情報

著者 Marta Campi,Guillaume Staerman,Gareth W. Peters,Tomoko Matsui
発行日 2024-10-03 17:05:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML | コメントする

Fair Allocation in Dynamic Mechanism Design

要約

我々は、オークショニアが不可分の財を買い手のグループに毎ラウンド、合計$T$ラウンド販売する動的メカニズム設計問題を考察する。オークショニアは、各グループの最小平均配分を保証する公平性制約を守りつつ、全体の割引収益を最大化することを目指す。我々はまず静的な場合($T=1$)を研究し、最適なメカニズムには2種類の補助が含まれることを立証する:1つは全ての買い手に割り当てられる全体的な確率を増加させるものであり、もう1つは、そうでなければ商品を獲得する確率が低いグループを有利にするものである。次に、各ラウンドにおける最適な配分と支払いを決定する一連の再帰的関数を特徴付けることによって、我々の結果を動的ケースに拡張する。注目すべきは、動的ケースにおいて、売り手は、一方では、真実を語るインセンティブを与えるために参加ボーナスを約束し、他方では、各ラウンドの参加費を請求することである。さらに、最適配分には再び補助が含まれ、その程度は、あるグループにアイテムを配分した場合と他のグループにアイテムを配分した場合の、売り手と買い手双方の将来の効用差に依存する。最後に、再帰方程式を解き、近似的に最適で公平な配分を効率的に決定する近似スキームを示す。

要約(オリジナル)

We consider a dynamic mechanism design problem where an auctioneer sells an indivisible good to groups of buyers in every round, for a total of $T$ rounds. The auctioneer aims to maximize their discounted overall revenue while adhering to a fairness constraint that guarantees a minimum average allocation for each group. We begin by studying the static case ($T=1$) and establish that the optimal mechanism involves two types of subsidization: one that increases the overall probability of allocation to all buyers, and another that favors the groups which otherwise have a lower probability of winning the item. We then extend our results to the dynamic case by characterizing a set of recursive functions that determine the optimal allocation and payments in each round. Notably, our results establish that in the dynamic case, the seller, on the one hand, commits to a participation bonus to incentivize truth-telling, and on the other hand, charges an entry fee for every round. Moreover, the optimal allocation once more involves subsidization, which its extent depends on the difference in future utilities for both the seller and buyers when allocating the item to one group versus the others. Finally, we present an approximation scheme to solve the recursive equations and determine an approximately optimal and fair allocation efficiently.

arxiv情報

著者 Alireza Fallah,Michael I. Jordan,Annie Ulichney
発行日 2024-10-03 17:05:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.GT, cs.LG, econ.TH | コメントする

Highly Adaptive Ridge

要約

本論文では、Highly Adaptive Ridge (HAR)を提案する。これは、平方可積分断面導関数を持つ右連続関数のクラスにおいて、$n^{-1/3}$無次元L2収束率を達成する回帰手法である。これはノンパラメトリックな大きな関数クラスで、特に表データに適している。HARはまさに、飽和0次テンソル積スプライン基底展開に基づく特定のデータ適応カーネルを持つカーネルリッジ回帰である。シミュレーションと実データを用いて我々の理論を確認する。特に小さなデータセットにおいて、最新のアルゴリズムよりも優れた性能を実証する。

要約(オリジナル)

In this paper we propose the Highly Adaptive Ridge (HAR): a regression method that achieves a $n^{-1/3}$ dimension-free L2 convergence rate in the class of right-continuous functions with square-integrable sectional derivatives. This is a large nonparametric function class that is particularly appropriate for tabular data. HAR is exactly kernel ridge regression with a specific data-adaptive kernel based on a saturated zero-order tensor-product spline basis expansion. We use simulation and real data to confirm our theory. We demonstrate empirical performance better than state-of-the-art algorithms for small datasets in particular.

arxiv情報

著者 Alejandro Schuler,Alexander Hagemeister,Mark van der Laan
発行日 2024-10-03 17:06:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML | コメントする

Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models

要約

機械学習モデルを実世界に安全に展開するためには、信頼性の校正が重要である。しかし、CLIPのような視覚言語モデルにおけるこのような問題は、特にファインチューニングの後では、十分に対処されていない。一方、KgCoOpの正則化は、信頼度を維持するが、精度が向上するため、基本クラスの信頼度が低下する。この観察結果にヒントを得て、我々は動的外れ値正則化(Dynamic Outlier Regularization: DOR)を導入し、微調整後の基本クラスと新クラスの両方における信頼度の較正を保証する。特に、大規模な語彙からサンプリングされた(基本クラスではなく)新しいテキストラベルの特徴偏差を最小化することを提案する。事実上、DORは、基本クラスに対する制約を緩和する一方で、新しいラベルに対するテキスト発散の増大を防ぐ。広範な実験により、DORは基本クラスと新規クラスに対する現在の微調整手法の適合性能を向上できることが実証された。

要約(オリジナル)

Confidence calibration is critical for the safe deployment of machine learning models in the real world. However, such issue in vision-language models like CLIP, particularly after fine-tuning, has not been fully addressed. In this work, we demonstrate that existing prompt tuning methods usually lead to a trade-off of calibration between base and new classes: the cross-entropy loss in CoOp causes overconfidence in new classes by increasing textual label divergence, whereas the regularization of KgCoOp maintains the confidence level but results in underconfidence in base classes due to the improved accuracy. Inspired by the observations, we introduce Dynamic Outlier Regularization (DOR) to ensure the confidence calibration on both base and new classes after fine-tuning. In particular, we propose to minimize the feature deviation of novel textual labels (instead of base classes) sampled from a large vocabulary. In effect, DOR prevents the increase in textual divergence for new labels while easing restrictions on base classes. Extensive experiments demonstrate that DOR can enhance the calibration performance of current fine-tuning methods on base and new classes.

arxiv情報

著者 Shuoyuan Wang,Yixuan Li,Hongxin Wei
発行日 2024-10-03 17:06:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

Collaborative learning of common latent representations in routinely collected multivariate ICU physiological signals

要約

集中治療室(ICU)では、多変量の時系列データが豊富に存在するため、機械学習(ML)を用いて患者の表現型解析を強化する機会がある。電子カルテ(EHR)に焦点を当てた先行研究とは対照的に、ここでは日常的に収集される生理学的時系列データを用いた表現型分類のためのMLアプローチを提案する。我々の新しいアルゴリズムは、患者間で共通の生理学的状態を識別するために、協調フィルタリングの概念とLong Short-Term Memory (LSTM)ネットワークを統合する。脳損傷患者における頭蓋内圧亢進(IH)検出のために実世界のICU臨床データでテストしたところ、我々の手法は曲線下面積(AUC)0.889、平均精度(AP)0.725を達成した。さらに、我々のアルゴリズムは、生理学的信号のより構造化された潜在的表現の学習において、オートエンコーダを凌駕した。これらの知見は、日常的に収集される多変量時系列を活用して臨床治療を改善する、患者の表現型決定に我々の手法が有望であることを強調している。

要約(オリジナル)

In Intensive Care Units (ICU), the abundance of multivariate time series presents an opportunity for machine learning (ML) to enhance patient phenotyping. In contrast to previous research focused on electronic health records (EHR), here we propose an ML approach for phenotyping using routinely collected physiological time series data. Our new algorithm integrates Long Short-Term Memory (LSTM) networks with collaborative filtering concepts to identify common physiological states across patients. Tested on real-world ICU clinical data for intracranial hypertension (IH) detection in patients with brain injury, our method achieved an area under the curve (AUC) of 0.889 and average precision (AP) of 0.725. Moreover, our algorithm outperforms autoencoders in learning more structured latent representations of the physiological signals. These findings highlight the promise of our methodology for patient phenotyping, leveraging routinely collected multivariate time series to improve clinical care practices.

arxiv情報

著者 Hollan Haule,Ian Piper,Patricia Jones,Tsz-Yan Milly Lo,Javier Escudero
発行日 2024-10-03 17:18:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

NETS: A Non-Equilibrium Transport Sampler

要約

非平衡輸送サンプラー(Non-Equilibrium Transport Sampler:NETS)と呼ばれる、正規化されていない確率分布からサンプリングするアルゴリズムを提案する。NETSは、Jarzynskiの等式に基づくアニールされた重要度サンプリング(AIS)の変形と見なすことができ、非平衡サンプリングを実行するために使用される確率微分方程式は、AISで使用される不偏重みの影響を低減する追加的な学習ドリフト項で補強される。このドリフトは、サンプリングを支配する確率微分方程式の解をバックプロパゲートすることなく、全ての目的関数を不偏的に推定できる。また、これらの目的関数の中には、推定分布の目標からのカルバック・ライブラー発散を制御するものもあることを証明する。NETSは不偏であることが示され、さらに、有効サンプルサイズを最大化するために学習後に調整可能な拡散係数を持つ。標準的なベンチマーク、高次元のガウス混合分布、統計的格子場の理論に基づくモデルにおいて、本手法の有効性を実証し、関連研究や既存のベースラインの性能を上回ることを示す。

要約(オリジナル)

We propose an algorithm, termed the Non-Equilibrium Transport Sampler (NETS), to sample from unnormalized probability distributions. NETS can be viewed as a variant of annealed importance sampling (AIS) based on Jarzynski’s equality, in which the stochastic differential equation used to perform the non-equilibrium sampling is augmented with an additional learned drift term that lowers the impact of the unbiasing weights used in AIS. We show that this drift is the minimizer of a variety of objective functions, which can all be estimated in an unbiased fashion without backpropagating through solutions of the stochastic differential equations governing the sampling. We also prove that some these objectives control the Kullback-Leibler divergence of the estimated distribution from its target. NETS is shown to be unbiased and, in addition, has a tunable diffusion coefficient which can be adjusted post-training to maximize the effective sample size. We demonstrate the efficacy of the method on standard benchmarks, high-dimensional Gaussian mixture distributions, and a model from statistical lattice field theory, for which it surpasses the performances of related work and existing baselines.

arxiv情報

著者 Michael S. Albergo,Eric Vanden-Eijnden
発行日 2024-10-03 17:35:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.stat-mech, cs.LG, hep-lat | コメントする