TURTLMap: Real-time Localization and Dense Mapping of Low-texture Underwater Environments with a Low-cost Unmanned Underwater Vehicle

要約

水中環境における位置特定とマッピングの進歩に関して、重要な作業が行われてきました。
それでも、最先端の手法は、水中環境ではよくある低テクスチャ環境という課題に直面しています。
このため、現実世界の多様なシーンで既存の手法を使用することが困難になります。
この論文では、リアルタイムの位置特定およびマッピング手法を通じてテクスチャレスの水中環境に焦点を当てた新しいソリューションである TURTLMap を紹介します。
この方法は低コストで、リアルタイムで低テクスチャ環境の高密度マップを構築しながら、ロボットを正確に追跡できることを示します。
モーション キャプチャ システムとグランド トゥルース参照マップを備えた屋内水槽で収集された実世界データを使用して、提案された手法を評価します。
定性的および定量的な結果は、提案されたシステムが、波の状況にさらされた場合でも、正確かつ堅牢な位置特定と正確な密なマッピングを達成することを検証します。
TURTLMap のプロジェクト ページは https://umfieldrobotics.github.io/TURTLMap です。

要約(オリジナル)

Significant work has been done on advancing localization and mapping in underwater environments. Still, state-of-the-art methods are challenged by low-texture environments, which is common for underwater settings. This makes it difficult to use existing methods in diverse, real-world scenes. In this paper, we present TURTLMap, a novel solution that focuses on textureless underwater environments through a real-time localization and mapping method. We show that this method is low-cost, and capable of tracking the robot accurately, while constructing a dense map of a low-textured environment in real-time. We evaluate the proposed method using real-world data collected in an indoor water tank with a motion capture system and ground truth reference map. Qualitative and quantitative results validate the proposed system achieves accurate and robust localization and precise dense mapping, even when subject to wave conditions. The project page for TURTLMap is https://umfieldrobotics.github.io/TURTLMap.

arxiv情報

著者 Jingyu Song,Onur Bagoren,Razan Andigani,Advaith Venkatramanan Sethuraman,Katherine A. Skinner
発行日 2024-10-09 17:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

FlowBotHD: History-Aware Diffuser Handling Ambiguities in Articulated Objects Manipulation

要約

我々は、ドアを開けるなどの曖昧な関節オブジェクトを操作するための新しいアプローチを導入します。この場合、マルチモダリティとオクルージョンにより、開く側と方向に関する曖昧さが生じます。
マルチモダリティは、完全に閉じたドアの開け方(押す、引く、スライドする)が不確かな場合や、どちら側から開けるべきかが不明確な場合に発生します。
オクルージョンにより、特定の角度からドアの形状がさらに不明瞭になり、オクルージョン中にさらに曖昧さが生じます。
これらの課題に取り組むために、我々は、多関節オブジェクトのマルチモーダル分布をモデル化し、履歴を使用してアクションの曖昧さを解消し、オクルージョン下で安定した予測を行う、履歴を意識した拡散ネットワークを提案します。
実験と分析は、私たちの方法の最先端のパフォーマンス、特に曖昧さによって引き起こされる故障モードの改善を実証します。
私たちのプロジェクトの Web サイトは https://flowbothd.github.io/ から入手できます。

要約(オリジナル)

We introduce a novel approach to manipulate articulated objects with ambiguities, such as opening a door, in which multi-modality and occlusions create ambiguities about the opening side and direction. Multi-modality occurs when the method to open a fully closed door (push, pull, slide) is uncertain, or the side from which it should be opened is uncertain. Occlusions further obscure the door’s shape from certain angles, creating further ambiguities during the occlusion. To tackle these challenges, we propose a history-aware diffusion network that models the multi-modal distribution of the articulated object and uses history to disambiguate actions and make stable predictions under occlusions. Experiments and analysis demonstrate the state-of-art performance of our method and specifically improvements in ambiguity-caused failure modes. Our project website is available at https://flowbothd.github.io/.

arxiv情報

著者 Yishu Li,Wen Hui Leng,Yiming Fang,Ben Eisner,David Held
発行日 2024-10-09 17:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

VIRT: Vision Instructed Transformer for Robotic Manipulation

要約

ロボット操作は、そのマルチモーダルな性質により、トレーニングの大きな曖昧さに直面することが多く、タスク内の操作の詳細を明確に記述するための明示的な指示が必要になります。
この研究では、最近のロボット政策は人間の幼児と同様にある程度の視覚理解能力を持って生まれてくるため、最近のロボット政策は一般的に採用されているテキストによる指導よりも自然に理解しやすいことを強調しています。
この前提に基づいて認知科学からインスピレーションを得て、テキスト注釈なしで大規模なロボットデータの事前トレーニングを実現するロボット画像パラダイムを紹介します。
さらに、人間の視線メカニズムをエミュレートするロボットの視線戦略を提案します。これにより、その後のアクションを導き、操作対象オブジェクトにポリシーの注意を集中させます。
これらのイノベーションを活用して、完全に Transformer ベースのポリシーである VIRT を開発します。
私たちは、物理的なロボットとシミュレートされた環境の両方を使用して包括的なタスクを設計し、VIRT の有効性を評価します。
その結果、VIRT は「密閉されたボトルの蓋を開ける」などの非常に競争力の高いタスクを完了できることが示され、提案された手法により、さまざまな困難なタスクにおけるベースライン ポリシーの成功率がほぼ 0% から 65% 以上に上昇しました。

要約(オリジナル)

Robotic manipulation, owing to its multi-modal nature, often faces significant training ambiguity, necessitating explicit instructions to clearly delineate the manipulation details in tasks. In this work, we highlight that vision instruction is naturally more comprehensible to recent robotic policies than the commonly adopted text instruction, as these policies are born with some vision understanding ability like human infants. Building on this premise and drawing inspiration from cognitive science, we introduce the robotic imagery paradigm, which realizes large-scale robotic data pre-training without text annotations. Additionally, we propose the robotic gaze strategy that emulates the human eye gaze mechanism, thereby guiding subsequent actions and focusing the attention of the policy on the manipulated object. Leveraging these innovations, we develop VIRT, a fully Transformer-based policy. We design comprehensive tasks using both a physical robot and simulated environments to assess the efficacy of VIRT. The results indicate that VIRT can complete very competitive tasks like “opening the lid of a tightly sealed bottle”, and the proposed techniques boost the success rates of the baseline policy on diverse challenging tasks from nearly 0% to more than 65%.

arxiv情報

著者 Zhuoling Li,Liangliang Ren,Jinrong Yang,Yong Zhao,Xiaoyang Wu,Zhenhua Xu,Xiang Bai,Hengshuang Zhao
発行日 2024-10-09 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Diffusion Density Estimators

要約

私たちは、神経密度推定器としての拡散モデルの使用を調査します。
この問題に対する現在のアプローチには、確率フロー ODE として知られる、生成プロセスを滑らかなフローに変換することが含まれます。
特定のサンプルでの対数密度は、ブラック ボックス ソルバーを使用して ODE を解くことによって取得できます。
フローを解決せずにログ密度を計算する、高度に並列化可能な新しいメソッドを導入します。
私たちのアプローチは、拡散モデルのシミュレーションフリーのトレーニングと同じ方法で、モンテカルロによる経路積分を推定することに基づいています。
また、さまざまなトレーニング パラメーターが密度計算の精度にどのような影響を与えるかを研究し、これらのモデルをよりスケーラブルかつ効率的にする方法についての洞察を提供します。

要約(オリジナル)

We investigate the use of diffusion models as neural density estimators. The current approach to this problem involves converting the generative process to a smooth flow, known as the Probability Flow ODE. The log density at a given sample can be obtained by solving the ODE with a black-box solver. We introduce a new, highly parallelizable method that computes log densities without the need to solve a flow. Our approach is based on estimating a path integral by Monte Carlo, in a manner identical to the simulation-free training of diffusion models. We also study how different training parameters affect the accuracy of the density calculation, and offer insights into how these models can be made more scalable and efficient.

arxiv情報

著者 Akhil Premkumar
発行日 2024-10-09 15:21:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Symbolic Recovery of Differential Equations: The Identifiability Problem

要約

微分方程式の記号的回復は、機械学習技術を使用して支配方程式の導出を自動化する野心的な試みです。
方程式の構造が既知であると仮定し、特定のパラメーターの推定に焦点を当てる古典的な方法とは対照的に、これらのアルゴリズムは構造とパラメーターを同時に学習することを目的としています。
支配方程式のパラメータの一意性、したがってその識別可能性は、パラメータ推定の分野ではよく扱われている問題ですが、記号回復については調査されていません。
ただし、アルゴリズムは支配方程式のより大きな空間をカバーすることを目的としているため、この問題はこの分野ではさらに存在するはずです。
この論文では、微分方程式の解が方程式そのものを一意に決定しないのはどのような条件下であるかを調査します。
さまざまなクラスの微分方程式に対して、関数が対応する微分方程式を一意に決定するための必要条件と十分条件の両方を提供します。
次に、その結​​果を使用して、関数が微分方程式を一意に解くかどうかを判断することを目的とした数値アルゴリズムを考案します。
最後に、解析的な関数形式に関する知識を前提とせずに、私たちのアルゴリズムが実際に学習した支配微分方程式の一意性を保証できることを示す広範な数値実験を提供し、それによって学習した方程式の信頼性を保証します。

要約(オリジナル)

Symbolic recovery of differential equations is the ambitious attempt at automating the derivation of governing equations with the use of machine learning techniques. In contrast to classical methods which assume the structure of the equation to be known and focus on the estimation of specific parameters, these algorithms aim to learn the structure and the parameters simultaneously. While the uniqueness and, therefore, the identifiability of parameters of governing equations are a well-addressed problem in the field of parameter estimation, it has not been investigated for symbolic recovery. However, this problem should be even more present in this field since the algorithms aim to cover larger spaces of governing equations. In this paper, we investigate under which conditions a solution of a differential equation does not uniquely determine the equation itself. For various classes of differential equations, we provide both necessary and sufficient conditions for a function to uniquely determine the corresponding differential equation. We then use our results to devise numerical algorithms aiming to determine whether a function solves a differential equation uniquely. Finally, we provide extensive numerical experiments showing that our algorithms can indeed guarantee the uniqueness of the learned governing differential equation, without assuming any knowledge about the analytic form of function, thereby ensuring the reliability of the learned equation.

arxiv情報

著者 Philipp Scholl,Aras Bacho,Holger Boche,Gitta Kutyniok
発行日 2024-10-09 15:27:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math-ph, math.MP | コメントする

Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax

要約

Deep InfoMax (DIM) は、ディープ ニューラル ネットワーク エンコーダーの入力と出力間の相互情報の最大化に基づく自己教師あり表現学習 (SSRL) の確立された手法です。
DIM と対照的 SSRL は一般に十分に研究されているにもかかわらず、特定の分布に準拠する表現を学習するタスク (つまり、分布マッチング、DM) についてはまだ十分に取り組まれていません。
いくつかの下流タスク (生成モデリング、もつれ解除、外れ値検出など) に対する DM の重要性を動機として、学習した表現と選択した事前分布の自動マッチングを可能にするために DIM を強化しました。
これを達成するために、同じ InfoMax トレーニング目標を維持しながら、エンコーダの正規化された出力に独立したノイズを注入することを提案します。
このような修正により、一様正規分布表現だけでなく、他の絶対連続分布表現も学習できることを示します。
私たちのアプローチは、さまざまな下流タスクでテストされています。
この結果は、下流タスクのパフォーマンスと DM の品質との間に適度なトレードオフがあることを示しています。

要約(オリジナル)

Deep InfoMax (DIM) is a well-established method for self-supervised representation learning (SSRL) based on maximization of the mutual information between the input and the output of a deep neural network encoder. Despite the DIM and contrastive SSRL in general being well-explored, the task of learning representations conforming to a specific distribution (i.e., distribution matching, DM) is still under-addressed. Motivated by the importance of DM to several downstream tasks (including generative modeling, disentanglement, outliers detection and other), we enhance DIM to enable automatic matching of learned representations to a selected prior distribution. To achieve this, we propose injecting an independent noise into the normalized outputs of the encoder, while keeping the same InfoMax training objective. We show that such modification allows for learning uniformly and normally distributed representations, as well as representations of other absolutely continuous distributions. Our approach is tested on various downstream tasks. The results indicate a moderate trade-off between the performance on the downstream tasks and quality of DM.

arxiv情報

著者 Ivan Butakov,Alexander Sememenko,Alexander Tolmachev,Andrey Gladkov,Marina Munkhoeva,Alexey Frolov
発行日 2024-10-09 15:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 94A17, cs.IT, cs.LG, H.1.1, math.IT, stat.ML | コメントする

Through the Looking Glass: Mirror Schrödinger Bridges

要約

密度が不明なターゲット メジャーからのリサンプリングは、数学的統計と機械学習における基本的な問題です。
機械学習の文献で主流となっている設定は、ガウス分布などの簡単にサンプリングできる事前分布からターゲット測度までのマップを学習することで構成されています。
このモデルでは、以前のサンプルが押し出されて、ターゲットの小節に新しいサンプルが生成されますが、直接サンプリングするのは難しいことがよくあります。
この論文では、ミラー シュレディンガー ブリッジと呼ばれる条件付きリサンプリングの新しいモデルを提案します。
私たちの重要な観察は、分布とそれ自体の間のシュレディンガー ブリッジ問題を解決すると、条件付き分布から新しいサンプルを生成し、入力データ ポイントの分布内変動を与える自然な方法が提供されるということです。
このほとんど見落とされてきたバージョンの Schr\’odinger ブリッジ問題を効率的に解決する方法を示します。
私たちの提案した方法は、分布内の変動を制御することに加えて、既存の代替方法に比べて大幅なアルゴリズムの簡素化につながることを証明します。
私たちは、これらの利点を活用して、多くのアプリケーション領域で近似サンプルを生成する方法を実証します。

要約(オリジナル)

Resampling from a target measure whose density is unknown is a fundamental problem in mathematical statistics and machine learning. A setting that dominates the machine learning literature consists of learning a map from an easy-to-sample prior, such as the Gaussian distribution, to a target measure. Under this model, samples from the prior are pushed forward to generate a new sample on the target measure, which is often difficult to sample from directly. In this paper, we propose a new model for conditional resampling called mirror Schr\’odinger bridges. Our key observation is that solving the Schr\’odinger bridge problem between a distribution and itself provides a natural way to produce new samples from conditional distributions, giving in-distribution variations of an input data point. We show how to efficiently solve this largely overlooked version of the Schr\’odinger bridge problem. We prove that our proposed method leads to significant algorithmic simplifications over existing alternatives, in addition to providing control over in-distribution variation. Empirically, we demonstrate how these benefits can be leveraged to produce proximal samples in a number of application domains.

arxiv情報

著者 Leticia Mattos Da Silva,Silvia Sellán,Justin Solomon
発行日 2024-10-09 15:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Causal Representation Learning in Temporal Data via Single-Parent Decoding

要約

科学研究では、システム内の高レベルの変数の根底にある因果構造を理解しようとすることがよくあります。
たとえば、気候科学者は、エルニーノなどの現象が、世界中の遠隔地で他の気候プロセスにどのような影響を与えるかを研究しています。
ただし、科学者は通常、地理的に分散した温度測定値などの低レベルの測定値を収集します。
これらから、エルニーノ現象やその他のプロセスの高レベル表現など、因果関係のある潜在変数へのマッピングと、それらの因果モデルの両方を学ぶ必要があります。
課題は、因果表現学習と呼ばれるこのタスクが観察データだけではかなり過小決定されており、不確定性を解決するには学習中に他の制約が必要であることです。
この研究では、スパース性を仮定した時間モデル、つまり単一親デコードを検討します。観測された各低レベル変数は、単一の潜在変数によってのみ影響を受けます。
このような仮定は、気候研究における地理的にグリッド化された測定データから領域を抽出したり、神経活動データから脳領域をキャプチャしたりするなど、低レベル変数のグループを見つける必要がある多くの科学的アプリケーションにおいて合理的です。
我々は、結果として得られるモデルの識別可能性を実証し、基礎となる潜在とそれらの因果グラフを同時に学習する微分可能な手法である単一親デコーディングによる因果発見 (CDSD) を提案します。
私たちは、シミュレートされたデータを使用して理論的結果の妥当性を評価し、気候科学分野の実世界データへの適用における私たちの方法の実際的な妥当性を示します。

要約(オリジナル)

Scientific research often seeks to understand the causal structure underlying high-level variables in a system. For example, climate scientists study how phenomena, such as El Ni\~no, affect other climate processes at remote locations across the globe. However, scientists typically collect low-level measurements, such as geographically distributed temperature readings. From these, one needs to learn both a mapping to causally-relevant latent variables, such as a high-level representation of the El Ni\~no phenomenon and other processes, as well as the causal model over them. The challenge is that this task, called causal representation learning, is highly underdetermined from observational data alone, requiring other constraints during learning to resolve the indeterminacies. In this work, we consider a temporal model with a sparsity assumption, namely single-parent decoding: each observed low-level variable is only affected by a single latent variable. Such an assumption is reasonable in many scientific applications that require finding groups of low-level variables, such as extracting regions from geographically gridded measurement data in climate research or capturing brain regions from neural activity data. We demonstrate the identifiability of the resulting model and propose a differentiable method, Causal Discovery with Single-parent Decoding (CDSD), that simultaneously learns the underlying latents and a causal graph over them. We assess the validity of our theoretical results using simulated data and showcase the practical validity of our method in an application to real-world data from the climate science field.

arxiv情報

著者 Philippe Brouillard,Sébastien Lachapelle,Julia Kaltenborn,Yaniv Gurwicz,Dhanya Sridhar,Alexandre Drouin,Peer Nowack,Jakob Runge,David Rolnick
発行日 2024-10-09 15:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Optimizing Estimators of Squared Calibration Errors in Classification

要約

この研究では、実際の設定で二乗校正誤差の推定量の比較と最適化を可能にする、平均二乗誤差ベースのリスクを提案します。
分類器の調整を改善することは、特に機密性の高い意思決定シナリオにおいて、機械学習モデルの信頼性と解釈可能性を高めるために重要です。
現在の文献にはさまざまなキャリブレーション (誤差) 推定量が存在しますが、適切な推定量の選択とそのハイパーパラメータの調整に関するガイダンスが不足しています。
二乗校正誤差の双一次構造を利用することで、独立した同一分布 (i.i.d.) の入力ペアを使用した回帰問題として校正推定を再定式化します。
この再定式化により、標準キャリブレーションとして知られる最も困難なキャリブレーション基準であっても、さまざまな推定器のパフォーマンスを定量化することができます。
私たちのアプローチでは、評価データセットのキャリブレーション エラーを推定する際に、トレーニング、検証、テストのパイプラインを推奨します。
既存のキャリブレーション推定量を最適化し、標準的な画像分類タスクに関する新しいカーネル リッジ回帰ベースの推定量と比較することで、パイプラインの有効性を実証します。

要約(オリジナル)

In this work, we propose a mean-squared error-based risk that enables the comparison and optimization of estimators of squared calibration errors in practical settings. Improving the calibration of classifiers is crucial for enhancing the trustworthiness and interpretability of machine learning models, especially in sensitive decision-making scenarios. Although various calibration (error) estimators exist in the current literature, there is a lack of guidance on selecting the appropriate estimator and tuning its hyperparameters. By leveraging the bilinear structure of squared calibration errors, we reformulate calibration estimation as a regression problem with independent and identically distributed (i.i.d.) input pairs. This reformulation allows us to quantify the performance of different estimators even for the most challenging calibration criterion, known as canonical calibration. Our approach advocates for a training-validation-testing pipeline when estimating a calibration error on an evaluation dataset. We demonstrate the effectiveness of our pipeline by optimizing existing calibration estimators and comparing them with novel kernel ridge regression-based estimators on standard image classification tasks.

arxiv情報

著者 Sebastian G. Gruber,Francis Bach
発行日 2024-10-09 15:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

The Vital Role of Gradient Clipping in Byzantine-Resilient Distributed Learning

要約

ビザンチン復元力のある分散機械学習は、不正行為や敵対的なワーカーの存在下でも堅牢な学習パフォーマンスを達成することを目指しています。
最先端 (SOTA) のロバスト分散勾配降下法 (Robust-DGD) 法は理論的には最適であることが証明されていますが、その経験的な成功は、多くの場合、事前集約勾配クリッピングに依存しています。
ただし、現在検討されている静的クリッピング戦略は、さまざまな結果を示します。つまり、一部の攻撃に対する堅牢性は向上しますが、他の攻撃に対しては効果がないか有害です。
私たちは、Adaptive Robust Clipping (ARC) と呼ばれる、原則に基づいた適応クリッピング戦略を提案することで、このギャップに対処します。
我々は、ARC が理論的な堅牢性の保証を維持しながら、SOTA Robust-DGD 手法の経験的な堅牢性を一貫して強化することを示します。
私たちの分析は、モデルが適切に初期化されている場合、ARC が Robust-DGD の漸近収束保証を明らかに改善することを示しています。
私たちは、画像分類タスクのベンチマークに関する一連の徹底的な実験を通じて、この理論的な洞察を検証します。
ARC によって引き起こされる改善は、非常に異質な環境や敵対的な環境でより顕著であることが観察されています。

要約(オリジナル)

Byzantine-resilient distributed machine learning seeks to achieve robust learning performance in the presence of misbehaving or adversarial workers. While state-of-the-art (SOTA) robust distributed gradient descent (Robust-DGD) methods were proven theoretically optimal, their empirical success has often relied on pre-aggregation gradient clipping. However, the currently considered static clipping strategy exhibits mixed results: improving robustness against some attacks while being ineffective or detrimental against others. We address this gap by proposing a principled adaptive clipping strategy, termed Adaptive Robust Clipping (ARC). We show that ARC consistently enhances the empirical robustness of SOTA Robust-DGD methods, while preserving the theoretical robustness guarantees. Our analysis shows that ARC provably improves the asymptotic convergence guarantee of Robust-DGD in the case when the model is well-initialized. We validate this theoretical insight through an exhaustive set of experiments on benchmark image classification tasks. We observe that the improvement induced by ARC is more pronounced in highly heterogeneous and adversarial settings.

arxiv情報

著者 Youssef Allouah,Rachid Guerraoui,Nirupam Gupta,Ahmed Jellouli,Geovani Rizk,John Stephan
発行日 2024-10-09 16:04:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする