Toward Teach and Repeat Across Seasonal Deep Snow Accumulation

要約

ティーチ・アンド・リピートは、困難な地形やオフロード環境で自律性を達成するための迅速な方法である。人間のオペレーターが車両を操縦し、地図上にオドメトリと関連付けられた経路のネットワークを作成する。ティーチングの直後から、システムは軌道の中を自律的に走行することができる。この精度により、オペレータはロボットが走行可能な経路をたどることを確信できる。しかし、この操作パラダイムは、季節変動によって大きく変化するオフロード環境ではほとんど検討されていない。本論文では、ティーチ&リピートのライダーとレーダーによる予備的な実地試験を紹介する。近日公開予定のFoMoデータセットのデータのサブセットを使用し、4日、44日、113日経過したルートのリピートを試みた。ライダーによるティーチ&リピートは、地上点を除去した場合に、より強力な定位能力を示した。FMCWレーダーは、古い地図でもしばしば定位できたが、ティーチングされた経路からのずれが小さかった。さらに、車両のピッチやロールが大きいために、最近の地図でレーダーによる定位に失敗した具体的なケースを紹介する。フィールドでの展開中に学んだ教訓を強調し、信頼性の高いティーチングを達成し、季節的な環境の変化にも繰り返し対応できるよう、改善すべき点を強調します。データ・リリースの最新情報については、https://norlab-ulaval.github.io/FoMo-website のデータセットをフォローしてください。

要約(オリジナル)

Teach and repeat is a rapid way to achieve autonomy in challenging terrain and off-road environments. A human operator pilots the vehicles to create a network of paths that are mapped and associated with odometry. Immediately after teaching, the system can drive autonomously within its tracks. This precision lets operators remain confident that the robot will follow a traversable route. However, this operational paradigm has rarely been explored in off-road environments that change significantly through seasonal variation. This paper presents preliminary field trials using lidar and radar implementations of teach and repeat. Using a subset of the data from the upcoming FoMo dataset, we attempted to repeat routes that were 4 days, 44 days, and 113 days old. Lidar teach and repeat demonstrated a stronger ability to localize when the ground points were removed. FMCW radar was often able to localize on older maps, but only with small deviations from the taught path. Additionally, we highlight specific cases where radar localization failed with recent maps due to the high pitch or roll of the vehicle. We highlight lessons learned during the field deployment and highlight areas to improve to achieve reliable teach and repeat with seasonal changes in the environment. Please follow the dataset at https://norlab-ulaval.github.io/FoMo-website for updates and information on the data release.

arxiv情報

著者 Matěj Boxan,Alexander Krawciw,Timothy D. Barfoot,François Pomerleau
発行日 2025-05-02 15:11:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Toward Teach and Repeat Across Seasonal Deep Snow Accumulation はコメントを受け付けていません

An Efficient Real-Time Planning Method for Swarm Robotics Based on an Optimal Virtual Tube

要約

未知の障害物環境をナビゲートする群ロボット工学は、課題に直面する新たな研究分野である。このような環境下でタスクを実行するには、群ロボットが自律的に定位、知覚、意思決定、制御、プランニングを行う必要がある。オンボードプラットフォームの限られた計算資源は、プランニングと制御に大きな課題をもたらします。リアクティブ・プランナーは、計算負荷が低く、再プランニングの頻度も高いが、予測能力に欠け、しばしばローカル・ミニマムをもたらす。一方、ロングホライズンプランナは、デッドロックを減らすために多段階の予測を行うことができるが、計算コストが高く、再計画の頻度が低くなる。本論文では、未知環境における群ロボティクスのためのリアルタイム最適仮想管計画法を提案し、アフィン関数を通して最適軌道の近似解を生成する。その結果、近似解の計算量は$O(n_t)$となり、$n_t$は軌道のパラメータ数であるため、全体の計算量を大幅に削減できる。提案手法は、リアクティブ手法を統合することにより、未知の環境において低計算量で安全な群運動を可能にする。提案手法の有効性は、いくつかのシミュレーションと実験により検証される。

要約(オリジナル)

Swarm robotics navigating through unknown obstacle environments is an emerging research area that faces challenges. Performing tasks in such environments requires swarms to achieve autonomous localization, perception, decision-making, control, and planning. The limited computational resources of onboard platforms present significant challenges for planning and control. Reactive planners offer low computational demands and high re-planning frequencies but lack predictive capabilities, often resulting in local minima. Long-horizon planners, on the other hand, can perform multi-step predictions to reduce deadlocks but cost much computation, leading to lower re-planning frequencies. This paper proposes a real-time optimal virtual tube planning method for swarm robotics in unknown environments, which generates approximate solutions for optimal trajectories through affine functions. As a result, the computational complexity of approximate solutions is $O(n_t)$, where $n_t$ is the number of parameters in the trajectory, thereby significantly reducing the overall computational burden. By integrating reactive methods, the proposed method enables low-computation, safe swarm motion in unknown environments. The effectiveness of the proposed method is validated through several simulations and experiments.

arxiv情報

著者 Pengda Mao,Shuli Lv,Chen Min,Zhaolong Shen,Quan Quan
発行日 2025-05-02 16:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | An Efficient Real-Time Planning Method for Swarm Robotics Based on an Optimal Virtual Tube はコメントを受け付けていません

Dynamic Robot Tool Use with Vision Language Models

要約

道具の使用はロボットのタスク能力を向上させる。近年の視覚言語モデル(VLM)の進歩により、ロボットは工具使用アプリケーションのための洗練された認知能力を備えている。しかし、既存の方法論は、初歩的な準静的工具操作や高レベルの工具選択に焦点を当て、タスクに適した工具把持の重要な側面を無視している。この限界に対処するために、我々は、多目的なロボットの工具使用のためのきめ細かいプランニングを可能にする、新しいVLM駆動フレームワークである逆工具使用プランニング(iTUP)を紹介する。iTUPは、VLMに基づく工具と接触点の接地、位置-速度軌道計画、物理情報に基づく把持の生成と選択の統合されたパイプラインを通して、(1)準静的、(2)より困難な動的、(3)クラスタ工具使用タスクに渡る汎用性を示す。ロバストなプランニングを保証するために、我々のフレームワークは、意味的アフォーダンスと物理的制約を推論することにより、安定かつ安全なタスクを考慮した把持を統合している。iTUPとベースラインを、精密ハンマー打ち、物体すくい、クラスタ掃引を含む現実的な道具使用タスクの包括的な範囲で評価する。実験結果は、iTUPが、多様な環境にわたる困難なロボットの道具使用に対する認知と計画の徹底的な基礎付けを保証することを実証している。

要約(オリジナル)

Tool use enhances a robot’s task capabilities. Recent advances in vision-language models (VLMs) have equipped robots with sophisticated cognitive capabilities for tool-use applications. However, existing methodologies focus on elementary quasi-static tool manipulations or high-level tool selection while neglecting the critical aspect of task-appropriate tool grasping. To address this limitation, we introduce inverse Tool-Use Planning (iTUP), a novel VLM-driven framework that enables grounded fine-grained planning for versatile robotic tool use. Through an integrated pipeline of VLM-based tool and contact point grounding, position-velocity trajectory planning, and physics-informed grasp generation and selection, iTUP demonstrates versatility across (1) quasi-static and more challenging (2) dynamic and (3) cluster tool-use tasks. To ensure robust planning, our framework integrates stable and safe task-aware grasping by reasoning over semantic affordances and physical constraints. We evaluate iTUP and baselines on a comprehensive range of realistic tool use tasks including precision hammering, object scooping, and cluster sweeping. Experimental results demonstrate that iTUP ensures a thorough grounding of cognition and planning for challenging robot tool use across diverse environments.

arxiv情報

著者 Noah Trupin,Zixing Wang,Ahmed H. Qureshi
発行日 2025-05-02 17:20:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Dynamic Robot Tool Use with Vision Language Models はコメントを受け付けていません

AirExo-2: Scaling up Generalizable Robotic Imitation Learning with Low-Cost Exoskeletons

要約

ロボットによる模倣学習を実世界での応用に拡大するには、効率的でスケーラブルな実証収集方法が必要である。遠隔操作は効果的ではあるが、高価で柔軟性に欠けるロボットプラットフォームに依存する。野生のデモンストレーションは有望な代替手段を提供するが、既存の収集装置には重要な限界がある。ハンドヘルドのセットアップでは観測範囲が限定され、全身システムでは領域のギャップのためにロボットデータとの微調整が必要になることが多い。これらの課題に対処するために、我々は、大規模な野生データ収集のための低コストの外骨格システムであるAirExo-2と、収集したデータを政策学習に適した擬似ロボットのデモンストレーションに変換するいくつかのアダプターを紹介する。さらに、RISE-2を紹介する。RISE-2は、ロバストな操作のために3次元空間知覚と2次元意味知覚を融合した、一般化可能な模倣学習ポリシーである。実験の結果、RISE-2は、領域内評価と汎化評価の両方において、先行する最先端手法を凌駕することが示された。AirExo-2によって生成された適応された野生データのみで訓練されたRISE-2ポリシーは、遠隔操作データで訓練されたポリシーと同等の性能を達成し、スケーラブルで一般化可能な模倣学習のためのAirExo-2の有効性と可能性を強調している。

要約(オリジナル)

Scaling up robotic imitation learning for real-world applications requires efficient and scalable demonstration collection methods. While teleoperation is effective, it depends on costly and inflexible robot platforms. In-the-wild demonstrations offer a promising alternative, but existing collection devices have key limitations: handheld setups offer limited observational coverage, and whole-body systems often require fine-tuning with robot data due to domain gaps. To address these challenges, we present AirExo-2, a low-cost exoskeleton system for large-scale in-the-wild data collection, along with several adaptors that transform collected data into pseudo-robot demonstrations suitable for policy learning. We further introduce RISE-2, a generalizable imitation learning policy that fuses 3D spatial and 2D semantic perception for robust manipulations. Experiments show that RISE-2 outperforms prior state-of-the-art methods on both in-domain and generalization evaluations. Trained solely on adapted in-the-wild data produced by AirExo-2, the RISE-2 policy achieves comparable performance to the policy trained with teleoperated data, highlighting the effectiveness and potential of AirExo-2 for scalable and generalizable imitation learning.

arxiv情報

著者 Hongjie Fang,Chenxi Wang,Yiming Wang,Jingjing Chen,Shangning Xia,Jun Lv,Zihao He,Xiyan Yi,Yunhan Guo,Xinyu Zhan,Lixin Yang,Weiming Wang,Cewu Lu,Hao-Shu Fang
発行日 2025-05-02 17:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | AirExo-2: Scaling up Generalizable Robotic Imitation Learning with Low-Cost Exoskeletons はコメントを受け付けていません

FoAR: Force-Aware Reactive Policy for Contact-Rich Robotic Manipulation

要約

接触が多いタスクは、接触の複雑なダイナミクスと正確な制御の必要性により、ロボット操作ポリシーにとって大きな課題となる。視覚に基づく方針は、一般的に力/トルク情報のような重要な接触フィードバックモダリティが欠如しているため、このようなタスクに必要なスキルに苦戦することが多い。この問題に対処するために、我々は、接触が多い操作のパフォーマンスを向上させるために、高周波の力/トルクセンシングと視覚入力を組み合わせた力認識反応型ポリシーであるFoARを提案する。FoARは、RISEポリシーの上に構築され、未来接触予測器によって導かれるマルチモーダル特徴融合メカニズムを組み込み、非接触フェーズと接触フェーズの間で力/トルクデータの使用量を動的に調整することを可能にする。また、そのリアクティブ制御戦略により、FoARは単純な位置制御によって接触が多いタスクを正確に達成することができます。実験結果は、FoARが予期せぬ動的外乱の下でも頑健な性能を維持しながら、様々な困難な接触リッチタスクにおいて全てのベースラインを大幅に上回ることを実証している。プロジェクトウェブサイト: https://tonyfang.net/FoAR/

要約(オリジナル)

Contact-rich tasks present significant challenges for robotic manipulation policies due to the complex dynamics of contact and the need for precise control. Vision-based policies often struggle with the skill required for such tasks, as they typically lack critical contact feedback modalities like force/torque information. To address this issue, we propose FoAR, a force-aware reactive policy that combines high-frequency force/torque sensing with visual inputs to enhance the performance in contact-rich manipulation. Built upon the RISE policy, FoAR incorporates a multimodal feature fusion mechanism guided by a future contact predictor, enabling dynamic adjustment of force/torque data usage between non-contact and contact phases. Its reactive control strategy also allows FoAR to accomplish contact-rich tasks accurately through simple position control. Experimental results demonstrate that FoAR significantly outperforms all baselines across various challenging contact-rich tasks while maintaining robust performance under unexpected dynamic disturbances. Project website: https://tonyfang.net/FoAR/

arxiv情報

著者 Zihao He,Hongjie Fang,Jingjing Chen,Hao-Shu Fang,Cewu Lu
発行日 2025-05-02 17:49:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | FoAR: Force-Aware Reactive Policy for Contact-Rich Robotic Manipulation はコメントを受け付けていません

Randomized Approach to Matrix Completion: Applications in Collaborative Filtering and Image Inpainting

要約

我々は、行列補完のための新しい手法を提示する。特に、一方の次元が他方の次元を大きく超える行列のために設計されている。我々の列選択行列補完(CSMC:Columns Selected Matrix Completion)法は、列サブセット選択と低ランク行列補完を組み合わせ、不完全なデータセットを効率的に再構成する。各ステップにおいて、CSMCは凸最適化問題を解く。CSMCを実装する2つのアルゴリズムを紹介し、それぞれ異なるサイズの問題に対応する。必要な仮定と正しい解が得られる確率を概説した正式な解析を提供する。行列のサイズ、ランク、欠落項目の比率が解の質と計算時間に与える影響を評価するために、合成データを用いた実験を行った。また、この手法を2つの実問題、すなわち推薦システムと画像インペインティングに適用した。その結果、CSMCは、凸最適化に基づく最新の行列補完アルゴリズムと同質の解を提供する一方で、計算実行時間の大幅な短縮を達成することが示された。

要約(オリジナル)

We present a novel method for matrix completion, specifically designed for matrices where one dimension significantly exceeds the other. Our Columns Selected Matrix Completion (CSMC) method combines Column Subset Selection and Low-Rank Matrix Completion to efficiently reconstruct incomplete datasets. In each step, CSMC solves a convex optimization problem. We introduce two algorithms to implement CSMC, each tailored to problems of different sizes. A formal analysis is provided, outlining the necessary assumptions and the probability of obtaining a correct solution. To assess the impact of matrix size, rank, and the ratio of missing entries on solution quality and computation time, we conducted experiments on synthetic data. The method was also applied to two real-world problems: recommendation systems and image inpainting. Our results show that CSMC provides solutions of the same quality as state-of-the-art matrix completion algorithms based on convex optimization, while achieving significant reductions in computational runtime.

arxiv情報

著者 Antonina Krajewska,Ewa Niewiadomska-Szynkiewicz
発行日 2025-05-02 12:30:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, G.1.6 | Randomized Approach to Matrix Completion: Applications in Collaborative Filtering and Image Inpainting はコメントを受け付けていません

mwBTFreddy: A Dataset for Flash Flood Damage Assessment in Urban Malawi

要約

この論文では、マラウイ都市部における鉄砲水被害評価を支援するために開発されたリソースであるmwBTFreddyデータセットについて、特に2023年のサイクロンFreddyの影響に焦点を当てて説明する。このデータセットは、Google Earth Proから取得した災害前後の衛星画像と、地理座標と被害レベル(被害なし、軽微、大規模、破壊)のラベル付き建物注釈を含むJSONファイルから構成されている。マラウイビジネス応用科学大学のKuyesera AIラボによって開発されたこのデータセットは、アフリカの都市状況における建物の検出と損傷分類に合わせた機械学習モデルの開発を促進することを目的としている。また、洪水被害の可視化と空間分析をサポートし、気候変動に脆弱な地域における移転、インフラ計画、緊急対応に関する意思決定に情報を提供する。

要約(オリジナル)

This paper describes the mwBTFreddy dataset, a resource developed to support flash flood damage assessment in urban Malawi, specifically focusing on the impacts of Cyclone Freddy in 2023. The dataset comprises paired pre- and post-disaster satellite images sourced from Google Earth Pro, accompanied by JSON files containing labelled building annotations with geographic coordinates and damage levels (no damage, minor, major, or destroyed). Developed by the Kuyesera AI Lab at the Malawi University of Business and Applied Sciences, this dataset is intended to facilitate the development of machine learning models tailored to building detection and damage classification in African urban contexts. It also supports flood damage visualisation and spatial analysis to inform decisions on relocation, infrastructure planning, and emergency response in climate-vulnerable regions.

arxiv情報

著者 Evelyn Chapuma,Grey Mengezi,Lewis Msasa,Amelia Taylor
発行日 2025-05-02 13:06:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | mwBTFreddy: A Dataset for Flash Flood Damage Assessment in Urban Malawi はコメントを受け付けていません

A Provably Convergent Plug-and-Play Framework for Stochastic Bilevel Optimization

要約

バイレベル最適化は、その応用範囲の広さと高度な階層最適化機能により、近年機械学習において大きな注目を集めている。本論文では、確率的バイレベル最適化手法を開発・分析するためのプラグアンドプレイフレームワーク(PnPBO)を提案する。このフレームワークは[9]で紹介されたシングルループのバイレベル最適化フレームワークに、いくつかの改良を加えながら、最新の非バイアス確率推定量とバイアス確率推定量の両方を統合したものである。PnPBOの実装では、異なる変数に対する全ての確率的推定量を独立に組み込むことができ、上位レベルの変数に対して不偏推定量を使用する場合には、追加の移動平均手法が適用される。理論的分析では、PnPBOの統一的な収束と複雑さの分析を行い、PnPBOの枠組みの中で様々な確率的推定量(PAGE、ZeroSARAH、混合戦略を含む)を適応することで、単一レベル最適化に匹敵する最適なサンプル複雑さが達成されることを実証する。これにより、2値最適化を解くための最適な複雑さの境界が1値最適化のそれと同じかどうかという未解決の疑問が解決される。最後に、我々のフレームワークを実証的に検証し、いくつかのベンチマーク問題でその有効性を示し、我々の理論的知見を確認する。

要約(オリジナル)

Bilevel optimization has recently attracted significant attention in machine learning due to its wide range of applications and advanced hierarchical optimization capabilities. In this paper, we propose a plug-and-play framework, named PnPBO, for developing and analyzing stochastic bilevel optimization methods. This framework integrates both modern unbiased and biased stochastic estimators into the single-loop bilevel optimization framework introduced in [9], with several improvements. In the implementation of PnPBO, all stochastic estimators for different variables can be independently incorporated, and an additional moving average technique is applied when using an unbiased estimator for the upper-level variable. In the theoretical analysis, we provide a unified convergence and complexity analysis for PnPBO, demonstrating that the adaptation of various stochastic estimators (including PAGE, ZeroSARAH, and mixed strategies) within the PnPBO framework achieves optimal sample complexity, comparable to that of single-level optimization. This resolves the open question of whether the optimal complexity bounds for solving bilevel optimization are identical to those for single-level optimization. Finally, we empirically validate our framework, demonstrating its effectiveness on several benchmark problems and confirming our theoretical findings.

arxiv情報

著者 Tianshu Chu,Dachuan Xu,Wei Yao,Chengming Yu,Jin Zhang
発行日 2025-05-02 13:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC | A Provably Convergent Plug-and-Play Framework for Stochastic Bilevel Optimization はコメントを受け付けていません

Deterministic Nonsmooth Nonconvex Optimization

要約

最近のいくつかの研究では、次元$d$に依存せず、$tilde O(Γdelta^{-1}epsilon^{-3})$ 一次オラクル呼び出しでそのような点を生成するランダム化アルゴリズムが提案されている。同様の結果が決定論的アルゴリズムで得られるかどうかは未解決の問題であった。我々はこの未解決の問題を解決し、無次元率を得るためにはランダム化が必要であることを示す。特に、任意の決定論的アルゴリズムに対して$Omega(d)$の下界を証明する。さらに、平滑最適化や凸最適化とは異なり、決定論的アルゴリズムが有限時間内に停止するためには、関数値へのアクセスが必要であることを示す。 一方、関数が僅かでも滑らかであれば、滑らかさパラメータに対数依存するだけの決定論的アルゴリズムで$tilde O(Γdelta^{-1}٥epsilon^{-3})$ の無次元速度が得られることを証明する。これらの発見を動機として、我々はリプシッツ関数を決定論的に平滑化することの複雑さを研究する。効率的なブラックボックス的ランダム化平滑化は存在するが、我々はまず、そのような決定論的手続きは意味のある方法で関数を平滑化できないことを示し、未解決の問題を解決する。次に、ReLUニューラルネットワークの構造化された場合について、この不可能性の結果を迂回する。そのために、オプティマイザがネットワークのアーキテクチャにアクセスすることを許可された実用的なホワイトボックス設定において、$(δ,epsilon)$定常点を証明的に保存する、簡単で次元のない決定論的平滑化を提案する。我々の方法は、ResNetsやConvNetsを含む、任意の深さの様々なアーキテクチャに適用できる。我々のアルゴリズムと組み合わせることで、ReLUネットワークを最適化するための最初の決定論的無次元アルゴリズムが得られ、我々の下界を回避することができる。

要約(オリジナル)

We study the complexity of optimizing nonsmooth nonconvex Lipschitz functions by producing $(\delta,\epsilon)$-stationary points. Several recent works have presented randomized algorithms that produce such points using $\tilde O(\delta^{-1}\epsilon^{-3})$ first-order oracle calls, independent of the dimension $d$. It has been an open problem as to whether a similar result can be obtained via a deterministic algorithm. We resolve this open problem, showing that randomization is necessary to obtain a dimension-free rate. In particular, we prove a lower bound of $\Omega(d)$ for any deterministic algorithm. Moreover, we show that unlike smooth or convex optimization, access to function values is required for any deterministic algorithm to halt within any finite time. On the other hand, we prove that if the function is even slightly smooth, then the dimension-free rate of $\tilde O(\delta^{-1}\epsilon^{-3})$ can be obtained by a deterministic algorithm with merely a logarithmic dependence on the smoothness parameter. Motivated by these findings, we turn to study the complexity of deterministically smoothing Lipschitz functions. Though there are efficient black-box randomized smoothings, we start by showing that no such deterministic procedure can smooth functions in a meaningful manner, resolving an open question. We then bypass this impossibility result for the structured case of ReLU neural networks. To that end, in a practical white-box setting in which the optimizer is granted access to the network’s architecture, we propose a simple, dimension-free, deterministic smoothing that provably preserves $(\delta,\epsilon)$-stationary points. Our method applies to a variety of architectures of arbitrary depth, including ResNets and ConvNets. Combined with our algorithm, this yields the first deterministic dimension-free algorithm for optimizing ReLU networks, circumventing our lower bound.

arxiv情報

著者 Michael I. Jordan,Guy Kornowski,Tianyi Lin,Ohad Shamir,Manolis Zampetakis
発行日 2025-05-02 13:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC | Deterministic Nonsmooth Nonconvex Optimization はコメントを受け付けていません

MultiGran-STGCNFog: Towards Accurate and High-Throughput Inference for Multi-Granular Spatiotemporal Traffic Forecasting

要約

インテリジェント交通システムには、正確な交通予測と迅速な推論が不可欠である。しかし、現在のグラフ畳み込みネットワーク(GCN)ベースのアプローチは、様々な空間的・時間的スケールにわたる多粒度時空間特徴を十分に抽出・融合することができず、精度の低い予測をもたらすことが証明されている。さらに、先行研究で導入された追加的な特徴抽出の分岐は、モデルの複雑性を決定的に増大させ、推論時間を延長させ、交通予測のための高速推論を提供することを困難にしている。本論文では、MultiGran-STGCNFogを提案する。MultiGran-STGCNFogは、効率的な霧分散推論システムであり、生成された動的な交通グラフ上で多粒子の時空間特徴フュージョンを用いて、相互依存的な交通ダイナミクスを完全に捕捉する新しい交通予測モデルである。提案するスケジューリングアルゴリズムGA-DPHDSは、レイヤーの実行順序とレイヤーとデバイスのスケジューリングスキームを同時に最適化し、異種フォグデバイスをパイプライン方式で活用することにより、推論スループットの大幅な向上に寄与する。実世界のデータセットを用いた広範な実験により、提案手法が選択されたベースラインよりも優れていることを実証する。

要約(オリジナル)

Accurate traffic forecasting and swift inference provision are essential for intelligent transportation systems. However, the present Graph Convolutional Network (GCN)-based approaches cannot extract and fuse multi-granular spatiotemporal features across various spatial and temporal scales sufficiently, proven to yield less accurate forecasts. Besides, additional feature extraction branches introduced in prior studies critically increased model complexity and extended inference time, making it challenging to provide fast inference for traffic forecasting. In this paper, we propose MultiGran-STGCNFog, an efficient fog distributed inference system with a novel traffic forecasting model that employs multi-granular spatiotemporal feature fusion on generated dynamic traffic graphs to fully capture interdependent traffic dynamics. The proposed scheduling algorithm GA-DPHDS, optimizing layer execution order and layer-device scheduling scheme simultaneously, contributes to considerable inference throughput improvement by leveraging heterogeneous fog devices in a pipelined manner. Extensive experiments on real-world datasets demonstrate the superiority of the proposed method over selected baselines.

arxiv情報

著者 Zhaoyan Wang,Xiangchi Song,In-Young Ko
発行日 2025-05-02 13:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | MultiGran-STGCNFog: Towards Accurate and High-Throughput Inference for Multi-Granular Spatiotemporal Traffic Forecasting はコメントを受け付けていません