Smoothing of Headland Path Edges and Headland-to-Mainfield Lane Transitions Based on a Spatial Domain Transformation and Linear Programming

要約

フィールド内のパス計画のコンテキスト内および非ホロノミックビークルモデルの仮定の下で、このペーパーでは、ヘッドランドパスのエッジのスムージングと、ヘッドランドツーメインフィールドレーンの遷移のスムージングという2つのタスクに対処します。
両方のタスクは、2段階の階層アルゴリズムによって解決されます。
最初のステップは、2つのタスクが区分的アフィンまたはDubinsの参照パスのいずれかを生成する場合に異なります。
2番目のステップでは、時間ドメインから空間ドメインと線形プログラミングへの車両ダイナミクスの変換を活用します。
ハイパーパラメーターを含まない目的関数や、面積カバーのギャップの回避や精密経路計画に役立つ空間的制約などの利点について説明します。
決定論的最適化ベースの方法であるこの方法は、最初のタスクの19インスタンスと2番目のタスクの84インスタンスを解く5つの実際のフィールドで評価されます。

要約(オリジナル)

Within the context of in-field path planning and under the assumption of nonholonomic vehicle models this paper addresses two tasks: smoothing of headland path edges and smoothing of headland-to-mainfield lane transitions. Both tasks are solved by a two-step hierarchical algorithm. The first step differs for the two tasks generating either a piecewise-affine or a Dubins reference path. The second step leverages a transformation of vehicle dynamics from the time domain into the spatial domain and linear programming. Benefits such as a hyperparameter-free objective function and spatial constraints useful for area coverage gaps avoidance and precision path planning are discussed. The method, which is a deterministic optimisation-based method, is evaluated on 5 real-world fields solving 19 instances of the first task and 84 instances of the second task.

arxiv情報

著者 Mogens Plessen
発行日 2025-05-05 13:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Smoothing of Headland Path Edges and Headland-to-Mainfield Lane Transitions Based on a Spatial Domain Transformation and Linear Programming はコメントを受け付けていません

Inverse Dynamics Trajectory Optimization for Contact-Implicit Model Predictive Control

要約

ロボットは、有用なタスクを実行するために環境との接触を行い、壊す必要がありますが、接触による計画と制御は依然として手ごわい課題です。
この作業では、驚くほど単純な方法である逆ダイナミクスの軌跡の最適化を備えたリアルタイムの接触モデル予測制御を実現します。
逆ダイナミクスによる軌跡の最適化は新しいものではありませんが、さまざまな挑戦的な操作と運動タスクの高速モデル予測制御を集合的に可能にする一連の増分イノベーションを導入します。
これらのイノベーションをオープンソースソルバーに実装し、提案されたアプローチの有効性をサポートするシミュレーションの例を提示します。
さらに、20度フリードームの双方向操作タスクのために、100 Hzを超えるハードウェアの接触的モデル予測制御を示します。
ビデオとコードはhttps://idto.github.ioで入手できます。

要約(オリジナル)

Robots must make and break contact with the environment to perform useful tasks, but planning and control through contact remains a formidable challenge. In this work, we achieve real-time contact-implicit model predictive control with a surprisingly simple method: inverse dynamics trajectory optimization. While trajectory optimization with inverse dynamics is not new, we introduce a series of incremental innovations that collectively enable fast model predictive control on a variety of challenging manipulation and locomotion tasks. We implement these innovations in an open-source solver and present simulation examples to support the effectiveness of the proposed approach. Additionally, we demonstrate contact-implicit model predictive control on hardware at over 100 Hz for a 20-degree-of-freedom bi-manual manipulation task. Video and code are available at https://idto.github.io.

arxiv情報

著者 Vince Kurtz,Alejandro Castro,Aykut Özgün Önol,Hai Lin
発行日 2025-05-05 13:36:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Inverse Dynamics Trajectory Optimization for Contact-Implicit Model Predictive Control はコメントを受け付けていません

In vivo validation of Wireless Power Transfer System for Magnetically Controlled Robotic Capsule Endoscopy

要約

このホワイトペーパーでは、初めて磁気制御されたロボットカプセル内視鏡プラットフォームに統合された誘導ワイヤレス電力伝達(WPT)システムの生体内検証を提示します。
提案されたシステムにより、オンボードバッテリーを必要とせずにカプセルへの継続的な電力供給が可能になり、動作時間が延長され、サイズの制約が削減されます。
WPTシステムは、外部の永久磁石と正確なカプセル操作のためのローカリゼーションコイルも収容するロボットアームのエンドエフェクターに取り付けられた送信コイルに基づいて、共振誘導結合メカニズムを介して動作します。
コイルの不整合と回転の存在下で堅牢で安定した容量の送信を確保するために、カプセル内に3D受信コイルが統合されます。
さらに、荷重シフトキーイング(LSK)変調に基づいた閉ループ適応制御システムは、特定の吸収率(SAR)の安全限界に準拠しながら、透過力を最適化して効率を最適化するために動的に調整します。
このシステムは、実験室の設定で広範囲に特徴付けられ、ブタモデルを使用したin vivo実験を通じて検証されており、現実的な胃腸条件での信頼できる電力伝達と効果的なロボットナビゲーションを実証しています。
結果は、自律的でバッテリーのないロボットカプセル内視鏡検査のための提案されたWPTアプローチの実現可能性を確認し、胃腸薬の診断の強化への道を開いています。

要約(オリジナル)

This paper presents the in vivo validation of an inductive wireless power transfer (WPT) system integrated for the first time into a magnetically controlled robotic capsule endoscopy platform. The proposed system enables continuous power delivery to the capsule without the need for onboard batteries, thus extending operational time and reducing size constraints. The WPT system operates through a resonant inductive coupling mechanism, based on a transmitting coil mounted on the end effector of a robotic arm that also houses an external permanent magnet and a localization coil for precise capsule manipulation. To ensure robust and stable power transmission in the presence of coil misalignment and rotation, a 3D receiving coil is integrated within the capsule. Additionally, a closed-loop adaptive control system, based on load-shift keying (LSK) modulation, dynamically adjusts the transmitted power to optimize efficiency while maintaining compliance with specific absorption rate (SAR) safety limits. The system has been extensively characterized in laboratory settings and validated through in vivo experiments using a porcine model, demonstrating reliable power transfer and effective robotic navigation in realistic gastrointestinal conditions: the average received power was 110 mW at a distance of 9 cm between the coils, with variable capsule rotation angles. The results confirm the feasibility of the proposed WPT approach for autonomous, battery-free robotic capsule endoscopy, paving the way for enhanced diagnostic in gastrointestinal medicine.

arxiv情報

著者 Alessandro Catania,Michele Bertozzi,Nikita J. Greenidge,Benjamin Calme,Gabriele Bandini,Christian Sbrana,Roberto Cecchi,Alice Buffi,Massimo Macucci,Sebastiano Strangio,Pietro Valdastri,Giuseppe Iannaccone
発行日 2025-05-05 13:48:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, physics.med-ph | In vivo validation of Wireless Power Transfer System for Magnetically Controlled Robotic Capsule Endoscopy はコメントを受け付けていません

AC-LIO: Towards Asymptotic and Consistent Convergence in LiDAR-Inertial Odometry

要約

既存のLidar-inertial Odometry(LIO)メソッドは、通常、Lidarフレーム内のモーション歪みを補うためにIMU統合から派生した以前の状態軌道を利用します。
ただし、以前の軌道と実際の軌道の間の矛盾は、リダーフレームの対応する幾何学的環境との一貫性を損なう残留歪みにつながる可能性があります。
この不均衡により、PointCloud登録はローカルオプティマに閉じ込められ、それにより、長期および大規模なローカリゼーション中にドリフトを悪化させる可能性があります。
この問題に対処するために、AC-LIOと呼ばれるLIOフレームワークを漸近的かつ一貫して収束させる新しいものを提案します。
私たちの重要なアイデアは、以前の状態チェーンに基づいて現在の更新期間を伝播し、反復中の残留歪みを漸近的に補償することです。
さらに、以前の誤差と電流歪みの間の弱い相関関係を考慮して、バックプロパゲーションを調節するためのPointCloud制約に基づいて収束基準を確立します。
収束基準を使用した漸近歪み補正を導くこの方法は、PointCloud登録の一貫した収束を微妙に強化し、LIOシステムの精度と堅牢性を改善することを未来的にします。
広範な実験は、AC-Lioフレームワークが以前の芸術と比較して州の推定における一貫した収束を著しく促進し、2番目の最高の結果よりも平均RMSEが約30.4%減少し、長期および大規模な局在とマッピングの精度の著しい改善をもたらすことを示しています。

要約(オリジナル)

Existing LiDAR-Inertial Odometry (LIO) methods typically utilize the prior state trajectory derived from the IMU integration to compensate for the motion distortion within LiDAR frames. However, discrepancies between the prior and actual trajectory can lead to residual distortions that compromise the consistency of the LiDAR frame with its corresponding geometric environment. This imbalance may result in pointcloud registration becoming trapped in local optima, thereby exacerbating drift during long-term and large-scale localization. To address the issue, we propose a novel asymptotically and consistently converging LIO framework dubbed AC-LIO. Our key idea is to back propagate current update term based on the prior state chain, and asymptotically compensate for the residual distortion during iteration. Moreover, considering the weak correlation between previous error and current distortion, we establish convergence criteria based on the pointcloud constraints to regulate the backpropagation. This method of guiding asymptotic distortion compensation using convergence criteria subtly enhances the consistent convergence of pointcloud registration, futher improving the accuracy and robustness of LIO system. Extensive experiments demonstrate that our AC-LIO framework significantly promotes consistent convergence in state estimation compared to prior arts, with about 30.4% reduction in average RMSE over the second best result, leading to marked improvements in the accuracy of long-term and large-scale localization and mapping.

arxiv情報

著者 Tianxiang Zhang,Xuanxuan Zhang,Wenlei Fan,Xin Xia,Huai Yu,Lin Wang,You Li
発行日 2025-05-05 14:03:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | AC-LIO: Towards Asymptotic and Consistent Convergence in LiDAR-Inertial Odometry はコメントを受け付けていません

High and Low Resolution Tradeoffs in Roadside Multimodal Sensing

要約

高解像度と低解像度のポイントクラウドロードサイドセンサーを選択する場合、バランスの取れたコストとパフォーマンスが重要です。
たとえば、LIDARは密なポイントクラウドを提供しますが、4Dミリ波レーダーは、空間的にはまばらですが、オブジェクトを区別し、低価格にするのに役立つ速度キューを埋め込みます。
残念ながら、センサー配置戦略は、カバレッジエリア全体のポイントクラウド密度と分布に影響します。
最初の課題を悪化させるのは、異なるセンサー混合物がしばしば、補完的な強さを最大化するために明確なニューラルネットワークアーキテクチャを必要とすることが多いという事実です。
比較のためのベンチマークを確立する評価フレームワークがなければ、わずかな利益がより高い解像度と新しいセンシングモダリティまたはアルゴリズムから生じるかどうかに関して主張することは不正です。
2つの課題に対処する元の評価を提示します。
まず、整数プログラミングを構築するシミュレーションツールを実現し、異なるセンサー配置戦略をカバレッジとコストと共同で自動的に比較します。
さらに、人間の多感覚統合に触発されて、トラフィック参加者を検出する際の情報豊かさによって空間分解能の削減が補償できるかどうかを評価するためのモジュラーフレームワークを提案します。
提案されたフレームワークでの広範な実験テストは、速度エンコードレーダーと低解像度のLIDARとの融合が得られることを示しています。
特に、これらの顕著な利益は、フレームに使用される特定の深い神経モジュールに関係なく保持されます。
結果は、高解像度が常に低解像度の代替品よりも優れているという一般的な仮定に挑戦します。

要約(オリジナル)

Balancing cost and performance is crucial when choosing high- versus low-resolution point-cloud roadside sensors. For example, LiDAR delivers dense point cloud, while 4D millimeter-wave radar, though spatially sparser, embeds velocity cues that help distinguish objects and come at a lower price. Unfortunately, the sensor placement strategies will influence point cloud density and distribution across the coverage area. Compounding the first challenge is the fact that different sensor mixtures often demand distinct neural network architectures to maximize their complementary strengths. Without an evaluation framework that establishes a benchmark for comparison, it is imprudent to make claims regarding whether marginal gains result from higher resolution and new sensing modalities or from the algorithms. We present an ex-ante evaluation that addresses the two challenges. First, we realized a simulation tool that builds on integer programming to automatically compare different sensor placement strategies against coverage and cost jointly. Additionally, inspired by human multi-sensory integration, we propose a modular framework to assess whether reductions in spatial resolution can be compensated by informational richness in detecting traffic participants. Extensive experimental testing on the proposed framework shows that fusing velocity-encoded radar with low-resolution LiDAR yields marked gains (14 percent AP for pedestrians and an overall mAP improvement of 1.5 percent across six categories) at lower cost than high-resolution LiDAR alone. Notably, these marked gains hold regardless of the specific deep neural modules employed in our frame. The result challenges the prevailing assumption that high resolution are always superior to low-resolution alternatives.

arxiv情報

著者 Shaozu Ding,Yihong Tang,Marco De Vincenzi,Dajiang Suo
発行日 2025-05-05 14:03:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | High and Low Resolution Tradeoffs in Roadside Multimodal Sensing はコメントを受け付けていません

Re-purposing a modular origami manipulator into an adaptive physical computer for machine learning and robotic perception

要約

物理的なコンピューティングは、機能的材料とロボットの機械的領域で直接インテリジェントなタスクを実行するための強力なツールとして浮上し、より従来のCOMSコンピューターへの依存を減らしました。
ただし、機械的設計が物理的なコンピューティングのパフォーマンスにどのように影響するかを説明する体系的な研究はありません。
この研究は、折り紙にインスパイアされたモジュラーロボットマニピュレーターを適応性のある物理的リザーバーに再利用し、さまざまな物理的構成、入力セットアップ、およびコンピューティングタスクでコンピューティング能力を体系的に評価することにより、この質問に関する洞察を捨てます。
この適応貯留層コンピューターに古典的なナルマベンチマークタスクを完了するように挑戦することにより、この研究は、その時系列エミュレーションパフォーマンスが、ターゲット出力とリザーバーダイナミクスの間の周波数スペクトル相関を定量化するピーク類似性インデックス(PSI)と直接相関することを示しています。
また、適応貯留層は知覚能力を実証し、ペイロードの重みと本質的なダイナミクスからの方向情報を正確に抽出します。
重要なことに、このような情報抽出能力は、貯水池体内の結節力学の間の空間的相関によって測定できることです。
最後に、形状記憶合金(SMA)作動を統合することにより、この研究では、実用的でロボット操作のために身体に具体化されたそのようなコンピューティング力を活用する方法を示しています。
この研究は、ソフトロボットと機能的材料からのコンピューティングパワーを収穫するための戦略的フレームワークを提供し、コンピューティングタスク要件に基づいて設計パラメーターと入力選択を構成する方法を示します。
このフレームワークをバイオ風の適応材料、補綴物、および自己適応型ソフトロボットシステムに拡張すると、次世代の具体化されたインテリジェンスが可能になり、物理的な構造がデジタルのカウンターパートと計算して相互作用できます。

要約(オリジナル)

Physical computing has emerged as a powerful tool for performing intelligent tasks directly in the mechanical domain of functional materials and robots, reducing our reliance on the more traditional COMS computers. However, no systematic study explains how mechanical design can influence physical computing performance. This study sheds insights into this question by repurposing an origami-inspired modular robotic manipulator into an adaptive physical reservoir and systematically evaluating its computing capacity with different physical configurations, input setups, and computing tasks. By challenging this adaptive reservoir computer to complete the classical NARMA benchmark tasks, this study shows that its time series emulation performance directly correlates to the Peak Similarity Index (PSI), which quantifies the frequency spectrum correlation between the target output and reservoir dynamics. The adaptive reservoir also demonstrates perception capabilities, accurately extracting its payload weight and orientation information from the intrinsic dynamics. Importantly, such information extraction capability can be measured by the spatial correlation between nodal dynamics within the reservoir body. Finally, by integrating shape memory alloy (SMA) actuation, this study demonstrates how to exploit such computing power embodied in the physical body for practical, robotic operations. This study provides a strategic framework for harvesting computing power from soft robots and functional materials, demonstrating how design parameters and input selection can be configured based on computing task requirements. Extending this framework to bio-inspired adaptive materials, prosthetics, and self-adaptive soft robotic systems could enable next-generation embodied intelligence, where the physical structure can compute and interact with their digital counterparts.

arxiv情報

著者 Jun Wang,Suyi Li
発行日 2025-05-05 15:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Re-purposing a modular origami manipulator into an adaptive physical computer for machine learning and robotic perception はコメントを受け付けていません

Analysis of the Unscented Transform for Cooperative Localization with Ranging-Only Information

要約

特にエージェントがピアツーピア範囲の測定のみなどの限られた情報に依存している場合、マルチエージェントロボットシステムにおける協同組合のローカリゼーションは困難です。
2つの重要な課題が生じます。この限られた情報を利用して、位置の推定を改善する。
センサーノイズ、非線形性、およびエージェント測定間の未知の相関からの不確実性の取り扱い。
情報の再利用を回避します。
このホワイトペーパーでは、エージェントと共分散交差点(CI)の範囲測定(CI)が未知の相関を処理するために使用される場合の状態推定のための無香料変換(UT)の使用を調べます。
Kalmanフィルターアプローチとは異なり、CIメソッドは完全な状態と共分散の推定を融合します。
これにより、Rangeのみの測定値を使用したCIアプローチの策定が課題になります。
これを克服するために、UTは不確実性を処理し、範囲測定と現在の協同的状態の推定値を使用して協調状態の更新を策定するために使用されます。
これにより、測定アップデートに情報の再利用が導入されます。
したがって、この作業の目的は、さまざまなレベルの状態測定の不確実性とエラーに直面した場合、この定式化の制限と有用性を評価することです。

要約(オリジナル)

Cooperative localization in multi-agent robotic systems is challenging, especially when agents rely on limited information, such as only peer-to-peer range measurements. Two key challenges arise: utilizing this limited information to improve position estimation; handling uncertainties from sensor noise, nonlinearity, and unknown correlations between agents measurements; and avoiding information reuse. This paper examines the use of the Unscented Transform (UT) for state estimation for a case in which range measurement between agents and covariance intersection (CI) is used to handle unknown correlations. Unlike Kalman Filter approaches, CI methods fuse complete state and covariance estimates. This makes formulating a CI approach with ranging-only measurements a challenge. To overcome this, UT is used to handle uncertainties and formulate a cooperative state update using range measurements and current cooperative state estimates. This introduces information reuse in the measurement update. Therefore, this work aims to evaluate the limitations and utility of this formulation when faced with various levels of state measurement uncertainty and errors.

arxiv情報

著者 Uthman Olawoye,Cagri Kilic,Jason N Gross
発行日 2025-05-05 15:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Analysis of the Unscented Transform for Cooperative Localization with Ranging-Only Information はコメントを受け付けていません

Spatio-Tempora Metric-Semantic Mapping for Persistent Orchard Monitoring: Method and Dataset

要約

成長期を通して個々の木または果物レベルでの果樹園の監視は、植物の表現型と園芸リソースの最適化や、化学的使用や収量の推定など、植物の表現型の最適化に不可欠です。
マルチセッション測定値を統合して果物の成長を時間の経過とともに追跡する4D時空間メトリックセマンチックマッピングシステムを紹介します。
私たちのアプローチでは、3DフルーツのローカリゼーションのためのLidar-RGB Fusionモジュールと、データ関連の精度を改善するための位置、視覚、およびトポロジー情報を活用する4Dフルーツ関連法を組み合わせています。
実際の果樹園データで評価されたこの方法では、60本の木の1,790リンゴの96.9%のフルーツカウント精度、1.1 cmの平均フルーツサイズ推定誤差、ベースライン上の4Dデータ関連の精度の23.7%の改善が得られます。
成長シーズンにわたって5つの果物種をカバーするマルチモーダルデータセットを公開しています。
https://4d-metric-semantic-mapping.org/

要約(オリジナル)

Monitoring orchards at the individual tree or fruit level throughout the growth season is crucial for plant phenotyping and horticultural resource optimization, such as chemical use and yield estimation. We present a 4D spatio-temporal metric-semantic mapping system that integrates multi-session measurements to track fruit growth over time. Our approach combines a LiDAR-RGB fusion module for 3D fruit localization with a 4D fruit association method leveraging positional, visual, and topology information for improved data association precision. Evaluated on real orchard data, our method achieves a 96.9% fruit counting accuracy for 1,790 apples across 60 trees, a mean fruit size estimation error of 1.1 cm, and a 23.7% improvement in 4D data association precision over baselines. We publicly release a multimodal dataset covering five fruit species across their growth seasons. https://4d-metric-semantic-mapping.org/

arxiv情報

著者 Jiuzhou Lei,Ankit Prabhu,Xu Liu,Fernando Cladera,Mehrad Mortazavi,Reza Ehsani,Pratik Chaudhari,Vijay Kumar
発行日 2025-05-05 16:02:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Spatio-Tempora Metric-Semantic Mapping for Persistent Orchard Monitoring: Method and Dataset はコメントを受け付けていません

RobustDexGrasp: Robust Dexterous Grasping of General Objects

要約

さまざまなオブジェクトを堅牢に把握する能力は、器用なロボットに不可欠です。
このホワイトペーパーでは、さまざまな障害に復元されるように設計された、シングルビュービジュアル入力を使用して、ゼロショットの動的器用な粒子を把握するためのフレームワークを紹介します。
私たちのアプローチは、指の関節とオブジェクト表面の間の動的距離ベクトルに基づいて、手中心のオブジェクト形状表現を利用しています。
この表現は、詳細なグローバルオブジェクトジオメトリに焦点を合わせるのではなく、潜在的な接触領域の周りの局所形状をキャプチャし、それにより、変動と不確実性を形成するための一般化を強化します。
知覚の制限に対処するために、特権教師ポリシーを混合カリキュラム学習アプローチと統合し、生徒のポリシーが把握能力を効果的に蒸留し、障害への適応を探求できるようにします。
シミュレーションのトレーニングを受けたこの方法は、247,786のシミュレートされたオブジェクトで97.0%、512の実際のオブジェクトで94.6%の成功率を達成し、顕著な一般化を示しています。
定量的および定性的な結果は、さまざまな妨害に対するポリシーの堅牢性を検証します。

要約(オリジナル)

The ability to robustly grasp a variety of objects is essential for dexterous robots. In this paper, we present a framework for zero-shot dynamic dexterous grasping using single-view visual inputs, designed to be resilient to various disturbances. Our approach utilizes a hand-centric object shape representation based on dynamic distance vectors between finger joints and object surfaces. This representation captures the local shape around potential contact regions rather than focusing on detailed global object geometry, thereby enhancing generalization to shape variations and uncertainties. To address perception limitations, we integrate a privileged teacher policy with a mixed curriculum learning approach, allowing the student policy to effectively distill grasping capabilities and explore for adaptation to disturbances. Trained in simulation, our method achieves success rates of 97.0% across 247,786 simulated objects and 94.6% across 512 real objects, demonstrating remarkable generalization. Quantitative and qualitative results validate the robustness of our policy against various disturbances.

arxiv情報

著者 Hui Zhang,Zijian Wu,Linyi Huang,Sammy Christen,Jie Song
発行日 2025-05-05 17:42:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RobustDexGrasp: Robust Dexterous Grasping of General Objects はコメントを受け付けていません

Towards Cross-Modality Modeling for Time Series Analytics: A Survey in the LLM Era

要約

エッジデバイスの増殖により、さまざまなドメインにわたって前例のない時系列データが生成され、さまざまな適切にカスタマイズされた方法が動機付けられています。
最近、テキストデータと時系列の共有された連続的な性質を活用することにより、大規模な言語モデル(LLM)が時系列分析の新しいパラダイムとして浮上しています。
ただし、LLMはテキストコーパスで事前に訓練されており、時系列に本質的に最適化されていないため、時系列とLLMSの間に基本的なクロスモダリティギャップが存在します。
最近の多くの提案は、この問題に対処するように設計されています。
この調査では、時系列分析のためのLLMSベースのクロスモダリティモデリングの最新の概要を説明します。
最初に、時系列モデリングに採用されているテキストデータのタイプに基づいて、既存のアプローチを4つのグループに分類する分類法を紹介します。
次に、主要なクロスモダリティ戦略、たとえばアラインメントと融合を要約し、さまざまなダウンストリームタスクにまたがるアプリケーションについて議論します。
さらに、さまざまなアプリケーションドメインのマルチモーダルデータセットで実験を行い、テキストデータの効果的な組み合わせと時系列分析を強化するためのクロスモダリティ戦略を調査します。
最後に、将来の研究のためのいくつかの有望な方向を提案します。
この調査は、LLMベースの時系列モデリングに関心のあるさまざまな専門家、研究者、および実務家向けに設計されています。

要約(オリジナル)

The proliferation of edge devices has generated an unprecedented volume of time series data across different domains, motivating various well-customized methods. Recently, Large Language Models (LLMs) have emerged as a new paradigm for time series analytics by leveraging the shared sequential nature of textual data and time series. However, a fundamental cross-modality gap between time series and LLMs exists, as LLMs are pre-trained on textual corpora and are not inherently optimized for time series. Many recent proposals are designed to address this issue. In this survey, we provide an up-to-date overview of LLMs-based cross-modality modeling for time series analytics. We first introduce a taxonomy that classifies existing approaches into four groups based on the type of textual data employed for time series modeling. We then summarize key cross-modality strategies, e.g., alignment and fusion, and discuss their applications across a range of downstream tasks. Furthermore, we conduct experiments on multimodal datasets from different application domains to investigate effective combinations of textual data and cross-modality strategies for enhancing time series analytics. Finally, we suggest several promising directions for future research. This survey is designed for a range of professionals, researchers, and practitioners interested in LLM-based time series modeling.

arxiv情報

著者 Chenxi Liu,Shaowen Zhou,Qianxiong Xu,Hao Miao,Cheng Long,Ziyue Li,Rui Zhao
発行日 2025-05-05 11:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Towards Cross-Modality Modeling for Time Series Analytics: A Survey in the LLM Era はコメントを受け付けていません