FlowNav: Combining Flow Matching and Depth Priors for Efficient Navigation

要約

未知の環境における効果的なロボットナビゲーションは、高頻度での正確な制御動作を必要とする困難な課題である。最近の進歩により、ロボットが正面RGB画像を用いてナビゲーション動作を生成する、画像目標条件付き制御問題として枠組みされた。この分野における現在の最先端の手法は、これらの制御動作を生成するために拡散ポリシーを使用している。その有望な結果にもかかわらず、これらのモデルは計算コストが高く、弱い知覚に悩まされている。これらの限界に対処するため、我々は、条件付きフローマッチング(CFM)と、既製の基礎モデルからの深さプリオールの組み合わせを使用して、ロボットナビゲーションのための行動方針を学習する新しいアプローチであるFlowNavを提示する。FlowNavは、最新の手法よりもナビゲーションと探索の精度が大幅に向上している。我々は、複数の未知の環境における実際のロボット実験を用いて我々の貢献を検証し、ナビゲーションの信頼性と精度の向上を実証する。我々はコードと学習済みモデルを公開する。

要約(オリジナル)

Effective robot navigation in unseen environments is a challenging task that requires precise control actions at high frequencies. Recent advances have framed it as an image-goal-conditioned control problem, where the robot generates navigation actions using frontal RGB images. Current state-of-the-art methods in this area use diffusion policies to generate these control actions. Despite their promising results, these models are computationally expensive and suffer from weak perception. To address these limitations, we present FlowNav, a novel approach that uses a combination of Conditional Flow Matching (CFM) and depth priors from off-the-shelf foundation models to learn action policies for robot navigation. FlowNav is significantly more accurate at navigation and exploration than state-of-the-art methods. We validate our contributions using real robot experiments in multiple unseen environments, demonstrating improved navigation reliability and accuracy. We make the code and trained models publicly available.

arxiv情報

著者 Samiran Gode,Abhijeet Nayak,Débora N. P. Oliveira,Michael Krawez,Cordelia Schmid,Wolfram Burgard
発行日 2025-03-03 15:10:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | FlowNav: Combining Flow Matching and Depth Priors for Efficient Navigation はコメントを受け付けていません

Attacking Large Language Models with Projected Gradient Descent

要約

現在のLLMアライメント手法は、特別に細工された敵対的プロンプトによって容易に破られる。離散最適化を用いて敵対的プロンプトを作成することは非常に効果的であるが、このような攻撃は通常10万回以上のLLMコールを使用する。このように計算コストが高いため、定量的な分析や敵対的な訓練などには不向きである。これを改善するために、連続的に緩和された入力プロンプトに対する射影勾配降下法(PGD)を再検討する。通常の勾配に基づく攻撃はほとんど失敗したが、連続緩和によってもたらされる誤差を注意深く制御することで、その有効性が飛躍的に向上することを示す。LLMに対する我々のPGDは、同じ破壊的な攻撃結果を達成するために、最新の離散最適化よりも最大1桁高速である。

要約(オリジナル)

Current LLM alignment methods are readily broken through specifically crafted adversarial prompts. While crafting adversarial prompts using discrete optimization is highly effective, such attacks typically use more than 100,000 LLM calls. This high computational cost makes them unsuitable for, e.g., quantitative analyses and adversarial training. To remedy this, we revisit Projected Gradient Descent (PGD) on the continuously relaxed input prompt. Although previous attempts with ordinary gradient-based attacks largely failed, we show that carefully controlling the error introduced by the continuous relaxation tremendously boosts their efficacy. Our PGD for LLMs is up to one order of magnitude faster than state-of-the-art discrete optimization to achieve the same devastating attack results.

arxiv情報

著者 Simon Geisler,Tom Wollschläger,M. H. I. Abdalla,Johannes Gasteiger,Stephan Günnemann
発行日 2025-03-03 09:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Attacking Large Language Models with Projected Gradient Descent はコメントを受け付けていません

MANTRA: The Manifold Triangulations Assemblage

要約

複雑系に存在する高次の相互作用を活用することへの関心が高まるにつれ、データ中の高次構造を利用したより表現力豊かなモデル、特に、単純な複素数のような高次領域でニューラルネットワークを設計するトポロジカル深層学習(TDL)が急増している。しかし、この分野の進歩は、これらのアーキテクチャをベンチマークするためのデータセットが乏しいことによって妨げられている。このギャップに対処するため、我々は、高次モデルをベンチマークするための、初めての大規模で多様な、本質的に高次なデータセットであるMANTRAを紹介する。MANTRAは、曲面と3次元多様体のそれぞれ43,000以上と250,000以上の三角形分割から構成されている。MANTRAを用いて、3つの位相幾何学的分類タスクについて、グラフベースと単純複合体ベースのモデルを評価した。その結果、単純な位相幾何学的不変量の捕捉において、グラフベースのニューラルネットワークよりも単純錯体ベースのニューラルネットワークの方が一般的に優れている一方で、TDLの再考を示唆するような苦戦も強いられていることが示された。このように、MANTRAは位相幾何学的手法を評価し、進歩させるためのベンチマークとして機能し、より効果的な高次モデルへの道を開く。

要約(オリジナル)

The rising interest in leveraging higher-order interactions present in complex systems has led to a surge in more expressive models exploiting higher-order structures in the data, especially in topological deep learning (TDL), which designs neural networks on higher-order domains such as simplicial complexes. However, progress in this field is hindered by the scarcity of datasets for benchmarking these architectures. To address this gap, we introduce MANTRA, the first large-scale, diverse, and intrinsically higher-order dataset for benchmarking higher-order models, comprising over 43,000 and 250,000 triangulations of surfaces and three-dimensional manifolds, respectively. With MANTRA, we assess several graph- and simplicial complex-based models on three topological classification tasks. We demonstrate that while simplicial complex-based neural networks generally outperform their graph-based counterparts in capturing simple topological invariants, they also struggle, suggesting a rethink of TDL. Thus, MANTRA serves as a benchmark for assessing and advancing topological methods, leading the way for more effective higher-order models.

arxiv情報

著者 Rubén Ballester,Ernst Röell,Daniel Bīn Schmid,Mathieu Alain,Sergio Escalera,Carles Casacuberta,Bastian Rieck
発行日 2025-03-03 09:50:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.AT | MANTRA: The Manifold Triangulations Assemblage はコメントを受け付けていません

HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios

要約

自動駐車は、自律走行技術の応用として大いに期待されている。しかし、既存の経路計画手法は、現実の多様で複雑な駐車シナリオを扱うことができないため、このニーズに応えるには不十分である。非学習的手法は信頼性の高い計画結果を提供する反面、複雑な場面に弱い。一方、学習ベースの手法は探索は得意だが、実現可能な解への収束が不安定である。両者の長所を活用するために、我々はHOPE(Hybrid pOlicy Path plannEr)を導入する。この新しいソリューションは、強化学習エージェントとReeds-Shepp曲線を統合し、多様なシナリオにおいて効果的なプランニングを可能にする。HOPEは、行動マスク機構を適用することによって強化学習エージェントの探索をガイドし、知覚された環境情報をマスクと統合するために変換器を用いる。提案するプランナの訓練と評価を容易にするために、空間と障害物の分布に基づいて駐車シナリオの難易度を分類する基準を提案する。実験結果は、我々のアプローチが典型的なルールベースのアルゴリズムや伝統的な強化学習手法を凌駕し、より高い計画成功率と様々なシナリオにわたる汎化を示すことを示す。また、HOPEの実用性を検証するために実世界での実験も行っている。我々のソリューションのコードは、https://github.com/jiamiya/HOPE で公開されている。

要約(オリジナル)

Automated parking stands as a highly anticipated application of autonomous driving technology. However, existing path planning methodologies fall short of addressing this need due to their incapability to handle the diverse and complex parking scenarios in reality. While non-learning methods provide reliable planning results, they are vulnerable to intricate occasions, whereas learning-based ones are good at exploration but unstable in converging to feasible solutions. To leverage the strengths of both approaches, we introduce Hybrid pOlicy Path plannEr (HOPE). This novel solution integrates a reinforcement learning agent with Reeds-Shepp curves, enabling effective planning across diverse scenarios. HOPE guides the exploration of the reinforcement learning agent by applying an action mask mechanism and employs a transformer to integrate the perceived environmental information with the mask. To facilitate the training and evaluation of the proposed planner, we propose a criterion for categorizing the difficulty level of parking scenarios based on space and obstacle distribution. Experimental results demonstrate that our approach outperforms typical rule-based algorithms and traditional reinforcement learning methods, showing higher planning success rates and generalization across various scenarios. We also conduct real-world experiments to verify the practicability of HOPE. The code for our solution is openly available on https://github.com/jiamiya/HOPE.

arxiv情報

著者 Mingyang Jiang,Yueyuan Li,Songan Zhang,Siyuan Chen,Chunxiang Wang,Ming Yang
発行日 2025-03-03 10:57:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios はコメントを受け付けていません

FLEXtime: Filterbank learning to explain time series

要約

時系列からの予測を説明するための最先端の手法では、各時間ステップについてインスタンス単位の顕著性マスクを学習する。しかし、多くのタイプの時系列は、データの本質的に複雑な性質のため、時間領域で解釈することが難しい。その代わりに、我々は、信号分解に関する確立された信号処理手法を援用し、時系列の説明可能性を、解釈可能な部分に対する顕著性マップとして捉えることを提案する。具体的には、時系列を周波数帯域に分割するためにバンドパスフィルターのバンクを使用するFLEXtimeと呼ばれる新しい手法を提案する。そして、モデルの予測を最適に説明するこれらの帯域の組み合わせを学習する。我々の広範な評価により、FLEXtimeは様々なデータセットにおいて、平均して最先端の説明可能性手法を凌駕することが示された。FLEXtimeは、現在の時系列説明可能性手法における重要なギャップを埋めるものであり、EEGやオーディオのような幅広い時系列にとって価値のあるツールである。コードはhttps://github.com/theabrusch/FLEXtime。

要約(オリジナル)

State-of-the-art methods for explaining predictions from time series involve learning an instance-wise saliency mask for each time step; however, many types of time series are difficult to interpret in the time domain, due to the inherently complex nature of the data. Instead, we propose to view time series explainability as saliency maps over interpretable parts, leaning on established signal processing methodology on signal decomposition. Specifically, we propose a new method called FLEXtime that uses a bank of bandpass filters to split the time series into frequency bands. Then, we learn the combination of these bands that optimally explains the model’s prediction. Our extensive evaluation shows that, on average, FLEXtime outperforms state-of-the-art explainability methods across a range of datasets. FLEXtime fills an important gap in the current time series explainability methodology and is a valuable tool for a wide range of time series such as EEG and audio. Code will be made available at https://github.com/theabrusch/FLEXtime.

arxiv情報

著者 Thea Brüsch,Kristoffer K. Wickstrøm,Mikkel N. Schmidt,Robert Jenssen,Tommy S. Alstrøm
発行日 2025-03-03 11:00:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | FLEXtime: Filterbank learning to explain time series はコメントを受け付けていません

MLOmics: Benchmark for Machine Learning on Cancer Multi-Omics Data

要約

多様ながんの研究を機械学習の問題としてとらえることは、近年、マルチオミクス解析やがん研究において大きな可能性を示している。このような成功した機械学習モデルを後押しするのは、十分なデータ量と適切な前処理を施した高品質のトレーニングデータセットである。しかし、The Cancer Genome Atlas(TCGA)のマルチオミクス・イニシアティブやLinkedOmicsのようなオープンベースなど、公開データポータルはいくつか存在するものの、これらのデータベースは既存の機械学習モデルにそのまま利用できるものではない。本論文では、バイオインフォマティクスと機械学習モデルの開発と評価に役立つことを目的として、オープンながんマルチオミクスベンチマークであるMLOmicsを提案する。MLOmicsには、4つのオミックスタイプ、層別化された特徴、および広範なベースラインを持つ、32のがん種すべてをカバーする8,314の患者サンプルが含まれている。また、学際的な解析をサポートするために、ダウンストリーム解析とバイオナレッジリンクのための補完的なサポートも含まれている。

要約(オリジナル)

Framing the investigation of diverse cancers as a machine learning problem has recently shown significant potential in multi-omics analysis and cancer research. Empowering these successful machine learning models are the high-quality training datasets with sufficient data volume and adequate preprocessing. However, while there exist several public data portals including The Cancer Genome Atlas (TCGA) multi-omics initiative or open-bases such as the LinkedOmics, these databases are not off-the-shelf for existing machine learning models. In this paper we propose MLOmics, an open cancer multi-omics benchmark aiming at serving better the development and evaluation of bioinformatics and machine learning models. MLOmics contains 8,314 patient samples covering all 32 cancer types with four omics types, stratified features, and extensive baselines. Complementary support for downstream analysis and bio-knowledge linking are also included to support interdisciplinary analysis.

arxiv情報

著者 Ziwei Yang,Rikuto Kotoge,Xihao Piao,Zheng Chen,Lingwei Zhu,Peng Gao,Yasuko Matsubara,Yasushi Sakurai,Jimeng Sun
発行日 2025-03-03 12:08:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, q-bio.GN | MLOmics: Benchmark for Machine Learning on Cancer Multi-Omics Data はコメントを受け付けていません

Federated Temporal Graph Clustering

要約

時間的グラフクラスタリングは、時間と共に関係や実体が変化する動的なグラフから意味のある構造を発見する複雑なタスクである。既存の手法では、一般的に中央集権的なデータ収集が必要であり、プライバシーとコミュニケーションに大きな課題がある。本研究では、複数のクライアントにまたがるグラフ・ニューラル・ネットワーク(GNN)の分散型学習を可能にし、プロセス全体を通してデータのプライバシーを保証する、新しいFederated Temporal Graph Clustering(FTGC)フレームワークを紹介する。本アプローチは、グラフ構造の時間的進化を効果的に捉えるための時間的集約機構と、高品質なクラスタリング表現を協調的に学習するための連合最適化戦略を組み込んでいる。データプライバシーを保持し、通信オーバヘッドを削減することで、我々のフレームワークは時間グラフデータセットにおいて競争力のある性能を達成し、動的データを含むプライバシーに敏感な実世界のアプリケーションにとって有望なソリューションとなる。

要約(オリジナル)

Temporal graph clustering is a complex task that involves discovering meaningful structures in dynamic graphs where relationships and entities change over time. Existing methods typically require centralized data collection, which poses significant privacy and communication challenges. In this work, we introduce a novel Federated Temporal Graph Clustering (FTGC) framework that enables decentralized training of graph neural networks (GNNs) across multiple clients, ensuring data privacy throughout the process. Our approach incorporates a temporal aggregation mechanism to effectively capture the evolution of graph structures over time and a federated optimization strategy to collaboratively learn high-quality clustering representations. By preserving data privacy and reducing communication overhead, our framework achieves competitive performance on temporal graph datasets, making it a promising solution for privacy-sensitive, real-world applications involving dynamic data.

arxiv情報

著者 Zihao Zhou,Yang Liu,Xianghong Xu,Qian Li
発行日 2025-03-03 12:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DC, cs.LG | Federated Temporal Graph Clustering はコメントを受け付けていません

On the Geometry and Optimization of Polynomial Convolutional Networks

要約

単項活性化関数を持つ畳み込みニューラルネットワークを研究する。具体的には、そのパラメータ化写像が規則的であり、フィルタを再スケーリングするまでは、ほぼどこでも同型であることを証明する。代数幾何学のツールを活用し、この写像の関数空間における幾何学的性質を探索する。特に、モデルの表現力を測るニューロマニフォールドの次元と次数を計算し、その特異点を記述する。さらに、一般的な大規模データセットについて、回帰損失の最適化で生じる臨界点の数を定量化する明示的な式を導出する。

要約(オリジナル)

We study convolutional neural networks with monomial activation functions. Specifically, we prove that their parameterization map is regular and is an isomorphism almost everywhere, up to rescaling the filters. By leveraging on tools from algebraic geometry, we explore the geometric properties of the image in function space of this map – typically referred to as neuromanifold. In particular, we compute the dimension and the degree of the neuromanifold, which measure the expressivity of the model, and describe its singularities. Moreover, for a generic large dataset, we derive an explicit formula that quantifies the number of critical points arising in the optimization of a regression loss.

arxiv情報

著者 Vahid Shahverdi,Giovanni Luca Marchetti,Kathlén Kohn
発行日 2025-03-03 12:18:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.AG | On the Geometry and Optimization of Polynomial Convolutional Networks はコメントを受け付けていません

A Meta-Learning Approach to Bayesian Causal Discovery

要約

固有の同定可能性の問題と、有限なデータの結果の両方により、一意的な因果構造を発見することは困難である。そのため、ベイズ事後推定から得られるような因果構造に対する不確実性が、しばしば下流のタスクに必要とされる。この事後値の正確な近似を見つけることは、可能性のある因果グラフの数が多いことと、因果エッジの機能的関係に対する事後値を見つける副問題が難しいことから、困難である。最近の研究では、最大事後因果グラフを推定する問題を教師付き学習とみなすメタ学習が用いられている。しかし、これらの手法は、エッジ間の相関やノードに関する並べ替えの等変量性など、事後分布の重要な性質を符号化できないため、完全な事後分布を推定する際には限界がある。さらに、これらの手法では、因果構造上の事後値から確実にサンプリングすることもできない。これらの限界に対処するため、我々は、事後的な因果構造のサンプリングを可能にし、これらの重要な性質を符号化するベイズメタ学習モデルを提案する。我々のメタベイズ因果発見を既存のベイズ因果発見手法と比較し、因果構造に対する事後学習の優位性を示す。

要約(オリジナル)

Discovering a unique causal structure is difficult due to both inherent identifiability issues, and the consequences of finite data. As such, uncertainty over causal structures, such as those obtained from a Bayesian posterior, are often necessary for downstream tasks. Finding an accurate approximation to this posterior is challenging, due to the large number of possible causal graphs, as well as the difficulty in the subproblem of finding posteriors over the functional relationships of the causal edges. Recent works have used meta-learning to view the problem of estimating the maximum a-posteriori causal graph as supervised learning. Yet, these methods are limited when estimating the full posterior as they fail to encode key properties of the posterior, such as correlation between edges and permutation equivariance with respect to nodes. Further, these methods also cannot reliably sample from the posterior over causal structures. To address these limitations, we propose a Bayesian meta learning model that allows for sampling causal structures from the posterior and encodes these key properties. We compare our meta-Bayesian causal discovery against existing Bayesian causal discovery methods, demonstrating the advantages of directly learning a posterior over causal structure.

arxiv情報

著者 Anish Dhir,Matthew Ashman,James Requeima,Mark van der Wilk
発行日 2025-03-03 12:21:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ME, stat.ML | A Meta-Learning Approach to Bayesian Causal Discovery はコメントを受け付けていません

Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders

要約

時系列異常検知は、幅広いアプリケーションにおいて重要な役割を果たす。既存の手法では、データセット毎に特定のモデルを学習する必要があり、異なるターゲットデータセット間での汎化能力に限界があるため、学習データが乏しい様々なシナリオにおける異常検知性能の妨げとなっている。この問題を解決するために、我々は一般的な時系列異常検知モデルを構築することを提案する。このモデルは、広範なマルチドメインデータセットで事前に訓練され、その後、多数の下流シナリオに適用することができる。(1)異なるデータセットに合わせた適切な情報ボトルネックの多様な要求を1つの統一されたモデルで満たすこと、(2)様々なターゲットシナリオにおいて効果的な異常検知を行うために重要な、複数の正常パターンと異常パターンの区別を可能にすること、である。この2つの課題に取り組むため、我々は適応型ボトルネックと二重逆行列復号器(DADA)を用いた一般的な時系列異常検出器を提案する。これは、異なるデータに基づくボトルネックの柔軟な選択を可能にし、正常系列と異常系列の明確な区別を明示的に強化する。我々は、異なるドメインからの9つのターゲットデータセットに対して広範な実験を行った。マルチドメインデータで事前学習した後、これらのデータセットに対してゼロショット異常検出器として機能するDADAは、各特定のデータセットに合わせたモデルと比較して、依然として競争力のある、あるいはより優れた結果を達成している。コードはhttps://github.com/decisionintelligence/DADA。

要約(オリジナル)

Time series anomaly detection plays a vital role in a wide range of applications. Existing methods require training one specific model for each dataset, which exhibits limited generalization capability across different target datasets, hindering anomaly detection performance in various scenarios with scarce training data. Aiming at this problem, we propose constructing a general time series anomaly detection model, which is pre-trained on extensive multi-domain datasets and can subsequently apply to a multitude of downstream scenarios. The significant divergence of time series data across different domains presents two primary challenges in building such a general model: (1) meeting the diverse requirements of appropriate information bottlenecks tailored to different datasets in one unified model, and (2) enabling distinguishment between multiple normal and abnormal patterns, both are crucial for effective anomaly detection in various target scenarios. To tackle these two challenges, we propose a General time series anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (DADA), which enables flexible selection of bottlenecks based on different data and explicitly enhances clear differentiation between normal and abnormal series. We conduct extensive experiments on nine target datasets from different domains. After pre-training on multi-domain data, DADA, serving as a zero-shot anomaly detector for these datasets, still achieves competitive or even superior results compared to those models tailored to each specific dataset. The code is made available at https://github.com/decisionintelligence/DADA.

arxiv情報

著者 Qichao Shentu,Beibu Li,Kai Zhao,Yang Shu,Zhongwen Rao,Lujia Pan,Bin Yang,Chenjuan Guo
発行日 2025-03-03 12:40:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders はコメントを受け付けていません