SeqFusion: Sequential Fusion of Pre-Trained Models for Zero-Shot Time-Series Forecasting

要約

トレーニングのために広範なタスク内データを必要とする従来の時系列予測方法とは異なり、ゼロショット予測は、追加のトレーニングデータなしでターゲットの時系列を考慮して将来の値を直接予測できます。
現在のゼロショットアプローチは、主に事前に訓練された一般化モデルに依存しており、そのパフォーマンスは多くの場合、トレーニング前のデータの多様性と関連性に応じて、プライバシーの懸念を引き起こす可能性があります。
多様なトレーニング前のデータを収集する代わりに、この作業でseqfusionを導入します。これは、ゼロショット予測のために、多様な事前訓練モデル(PTM)を順次収集および融合する新しいフレームワークです。
ターゲット時系列の特定の時間的特性に基づいて、SeqFusionは、事前に収集されたPTMのバッチから最も適切なPTMを選択し、シーケンシャル予測を実行し、プライバシーを保護するために最小データを使用しながらすべての予測を融合します。
これらのPTMはそれぞれ、さまざまな時間パターンと予測タスクを専門としているため、各PTMでターゲット時系列の共有表現スペースの距離を測定することにより、選択できるようになります。
実験は、Seqfusionが最先端の方法と比較してゼロショット予測の競争精度を達成することを示しています。

要約(オリジナル)

Unlike traditional time-series forecasting methods that require extensive in-task data for training, zero-shot forecasting can directly predict future values given a target time series without additional training data. Current zero-shot approaches primarily rely on pre-trained generalized models, with their performance often depending on the variety and relevance of the pre-training data, which can raise privacy concerns. Instead of collecting diverse pre-training data, we introduce SeqFusion in this work, a novel framework that collects and fuses diverse pre-trained models (PTMs) sequentially for zero-shot forecasting. Based on the specific temporal characteristics of the target time series, SeqFusion selects the most suitable PTMs from a batch of pre-collected PTMs, performs sequential predictions, and fuses all the predictions while using minimal data to protect privacy. Each of these PTMs specializes in different temporal patterns and forecasting tasks, allowing SeqFusion to select by measuring distances in a shared representation space of the target time series with each PTM. Experiments demonstrate that SeqFusion achieves competitive accuracy in zero-shot forecasting compared to state-of-the-art methods.

arxiv情報

著者 Ting-Ji Huang,Xu-Yang Chen,Han-Jia Ye
発行日 2025-03-04 17:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SeqFusion: Sequential Fusion of Pre-Trained Models for Zero-Shot Time-Series Forecasting はコメントを受け付けていません

Verbalized Probabilistic Graphical Modeling

要約

人間の認知は、感覚入力を超越し、世界の理解を構成する潜在的な表現を形成することに優れています。
大規模な言語モデル(LLM)は、考え方のチェーンの推論を生み出すことができますが、特に構成的推論タスクにおいて、潜在的な構造とモデルの不確実性をキャプチャする原則的なフレームワークがありません。
自然言語の確率的グラフィックモデル(PGM)の重要な原理をシミュレートするためにLLMSをガイドするベイジアンプロンプトフレームワークである、言葉による確率化グラフィカルモデリング(VPGM)を提案します。
実質的なドメインの専門知識や専門的なトレーニングを必要とする多くの従来の確率的方法とは異なり、VPGMは専門家主導のモデル設計をバイパスし、限られた仮定または希少なデータを持つシナリオに適しています。
私たちは、クローズエンドとオープンエンドの両方のいくつかの構成的推論タスクに関するモデルを評価しました。
私たちの結果は、このモデルが信頼のキャリブレーションとテキスト生成の品質を効果的に強化することを示しています。

要約(オリジナル)

Human cognition excels at transcending sensory input and forming latent representations that structure our understanding of the world. Although Large Language Models (LLMs) can produce chain-of-thought reasoning, they lack a principled framework to capture latent structures and model uncertainty, especially in compositional reasoning tasks. We propose Verbalized Probabilistic Graphical Modeling (vPGM), a Bayesian prompting framework that guides LLMs to simulate key principles of Probabilistic Graphical Models (PGMs) in natural language. Unlike many traditional probabilistic methods requiring substantial domain expertise or specialized training, vPGM bypasses expert-driven model design, making it well-suited for scenarios with limited assumptions or scarce data. We evaluated our model on several compositional reasoning tasks, both close-ended and open-ended. Our results indicate that the model effectively enhances confidence calibration and text generation quality.

arxiv情報

著者 Hengguan Huang,Xing Shen,Songtao Wang,Lingfa Meng,Dianbo Liu,Hao Wang,Samir Bhatt
発行日 2025-03-04 18:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Verbalized Probabilistic Graphical Modeling はコメントを受け付けていません

Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models

要約

モデルスープなどのモデルのマージは、さらにトレーニングをせずに異なるモデルと同じアーキテクチャを組み合わせる実践です。
この作業では、タスク固有のデータがしばしば利用できない英語言語では、ターゲットタスクの大規模な言語モデル(LLM)を微調整することの難しさに対処するモデルマージ方法論を提示します。
私たちは数学的な推論に焦点を当て、言語内の数学データなしで、言語と数学の能力を構成することにより、横断的な転送を促進します。
同じ前提条件のモデルから始めて、英語の数学指導データとターゲット言語の一般的な指導データに関する個別の「専門家」を微調整します。
次に、数学の専門家の上部と下部の変圧器層を、言語の専門家からの層に直接置き換えます。これにより、ターゲット言語の数学のパフォーマンスが向上します。
結果のマージされたモデルは、数学のベンチマークであるMGSMの個々の専門家やその他のマージメソッドを、数学指導データが不足している4つの主要言語で10%上回ります。
さらに、このレイヤースワッピングは、各専門家の微調整中の最も重要なパラメーターの変化の解釈分析に基づいているため、シンプルで安価で直感的です。
この方法で横断的転送のためにLLMSを成功させる能力は、モデルの専門知識を組み合わせ、モジュール式ソリューションを作成し、言語間で推論機能をすべて事後に組み合わせて、将来の可能性を開きます。

要約(オリジナル)

Model merging, such as model souping, is the practice of combining different models with the same architecture together without further training. In this work, we present a model merging methodology that addresses the difficulty of fine-tuning Large Language Models (LLMs) for target tasks in non-English languages, where task-specific data is often unavailable. We focus on mathematical reasoning and without in-language math data, facilitate cross-lingual transfer by composing language and math capabilities. Starting from the same pretrained model, we fine-tune separate ‘experts’ on math instruction data in English and on generic instruction data in the target language. We then replace the top and bottom transformer layers of the math expert directly with layers from the language expert, which consequently enhances math performance in the target language. The resulting merged models outperform the individual experts and other merging methods on the math benchmark, MGSM, by 10% across four major languages where math instruction data is scarce. In addition, this layer swapping is simple, inexpensive, and intuitive, as it is based on an interpretative analysis of the most important parameter changes during the fine-tuning of each expert. The ability to successfully re-compose LLMs for cross-lingual transfer in this manner opens up future possibilities to combine model expertise, create modular solutions, and transfer reasoning capabilities across languages all post hoc.

arxiv情報

著者 Lucas Bandarkar,Benjamin Muller,Pritish Yuvraj,Rui Hou,Nayan Singhal,Hongjiang Lv,Bing Liu
発行日 2025-03-04 18:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models はコメントを受け付けていません

LABIIUM: AI-Enhanced Zero-configuration Measurement Automation System

要約

実験室環境の複雑さには、機器の相互作用を簡素化し、測定の自動化を強化するソリューションが必要です。
従来のツールでは、構成、ソフトウェア、プログラミングスキルが必要であることが多く、生産性の障壁を作り出します。
専用のソフトウェアスイートやカスタムスクリプトを含む以前のアプローチは、プログラミングプラクティスに合わせたユーザーフレンドリーなソリューションを提供するのに頻繁に不足しています。
実験的なワークフローを合理化し、ユーザーの生産性を向上させるように設計されたAIに強化されたゼロ構成測定自動化システムであるLabiiumを紹介します。
Labiiumは、大規模な言語モデル(LLMS)を搭載したAIアシスタントを統合してコードを生成します。
Labiiumの実験室測定ブリッジ(LAMBS)により、VSCODEやPythonなどの標準的なツールを使用してシームレスな機器接続を可能にし、セットアップオーバーヘッドを排除します。
その機能を実証するために、電流源負荷を備えた単純な2トランジスタ反転アンプのパラメトリック伝達曲線の測定を含む実験を実施しました。
AIアシスタントは、さまざまな迅速なシナリオを使用して評価され、Claude Sonnet 3.5、Gemini Pro 1.5、およびGPT-4Oなどの複数のモデルと比較されました。
勾配加重適応確率サンプリング(GWASS)メソッドを実装する専門的なソリューションをベースラインとして使用しました。
AIアシスタントによって生成されたソリューションは、専門家ソリューションと10,000ポイントの均一な線形掃引ベースラインと比較されました。
グラフの結果は、LLMSが最も基本的な均一なスイープを正常に完了することができたことを示していますが、LLMはGWASSと競合するための適応的なスイープアルゴリズムを開発することができませんでした。
この評価は、研究室の生産性を高め、研究と産業におけるデジタル変革をサポートするLabiiumの能力を強調し、電子測定科学タスクのLLMパフォーマンスを改善するために必要な将来の作業を強調しています。

要約(オリジナル)

The complexity of laboratory environments requires solutions that simplify instrument interaction and enhance measurement automation. Traditional tools often require configuration, software, and programming skills, creating barriers to productivity. Previous approaches, including dedicated software suites and custom scripts, frequently fall short in providing user-friendly solutions that align with programming practices. We present LABIIUM, an AI-enhanced, zero-configuration measurement automation system designed to streamline experimental workflows and improve user productivity. LABIIUM integrates an AI assistant powered by Large Language Models (LLMs) to generate code. LABIIUM’s Lab-Automation-Measurement Bridges (LAMBs) enable seamless instrument connectivity using standard tools such as VSCode and Python, eliminating setup overhead. To demonstrate its capabilities, we conducted experiments involving the measurement of the parametric transfer curve of a simple two-transistor inverting amplifier with a current source load. The AI assistant was evaluated using different prompt scenarios and compared with multiple models, including Claude Sonnet 3.5, Gemini Pro 1.5, and GPT-4o. An expert solution implementing the Gradient-Weighted Adaptive Stochastic Sampling (GWASS) method was used as a baseline. The solutions generated by the AI assistant were compared with the expert solution and a uniform linear sweep baseline with 10,000 points. The graph results show that the LLMs were able to successfully complete the most basic uniform sweep, but LLMs were unable to develop adaptive sweeping algorithms to compete with GWASS. The evaluation underscores LABIIUM’s ability to enhance laboratory productivity and support digital transformation in research and industry, and emphasizes the future work required to improve LLM performance in Electronic Measurement Science Tasks.

arxiv情報

著者 Emmanuel A. Olowe,Danial Chitnis
発行日 2025-03-04 18:15:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.SE | LABIIUM: AI-Enhanced Zero-configuration Measurement Automation System はコメントを受け付けていません

(How) Do Language Models Track State?

要約

トランス語モデル(LMS)は、進化する世界の観察されていない状態を追跡する必要があるように見えるように見える、ストーリーテリングからコード生成までの行動を示します。
彼らはどのようにそうしますか?
順列を構成するためにトレーニングまたは微調整されたLMSで状態追跡を研究します(つまり、一連のスワップの後にオブジェクトのセットの順序を計算するため)。
この問題の単純な代数構造にもかかわらず、他の多くのタスク(例えば、有限のオートマトンのシミュレーションとブール式の評価)は順列組成に縮小することができ、一般的な状態追跡のための自然なモデルになります。
LMSは、このタスクの2つの状態追跡メカニズムのいずれかを常に学習することを示しています。
最初のものは、Liu et alによる最近の理論的研究で使用されている「連想スキャン」構造に非常に似ています。
(2023)およびMerrill et al。
(2024)。
2番目は、計算が容易な機能(順列パリティ)を使用して出力のスペースを部分的にプルンし、連想スキャンで洗練します。
2つのメカニズムは、著しく異なる堅牢性特性を示し、ヒューリスティックを促進または抑制する中間トレーニングタスクで、どちらか一方に向かってLMSを導く方法を示します。
我々の結果は、Transformer LMSは、前処理されていないか微調整されていようと、効率的で解釈可能な状態追跡メカニズムを実装することを学ぶことができ、これらのメカニズムの出現を予測および制御できることを示しています。

要約(オリジナル)

Transformer language models (LMs) exhibit behaviors — from storytelling to code generation — that appear to require tracking the unobserved state of an evolving world. How do they do so? We study state tracking in LMs trained or fine-tuned to compose permutations (i.e., to compute the order of a set of objects after a sequence of swaps). Despite the simple algebraic structure of this problem, many other tasks (e.g., simulation of finite automata and evaluation of boolean expressions) can be reduced to permutation composition, making it a natural model for state tracking in general. We show that LMs consistently learn one of two state tracking mechanisms for this task. The first closely resembles the ‘associative scan’ construction used in recent theoretical work by Liu et al. (2023) and Merrill et al. (2024). The second uses an easy-to-compute feature (permutation parity) to partially prune the space of outputs, then refines this with an associative scan. The two mechanisms exhibit markedly different robustness properties, and we show how to steer LMs toward one or the other with intermediate training tasks that encourage or suppress the heuristics. Our results demonstrate that transformer LMs, whether pretrained or fine-tuned, can learn to implement efficient and interpretable state tracking mechanisms, and the emergence of these mechanisms can be predicted and controlled.

arxiv情報

著者 Belinda Z. Li,Zifan Carl Guo,Jacob Andreas
発行日 2025-03-04 18:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | (How) Do Language Models Track State? はコメントを受け付けていません

Evaluation of Architectural Synthesis Using Generative AI

要約

マルチモーダル生成AIの最近の進歩は、技術的な図面の解釈や3D CADモデルの作成など、専門的な知識を必要とする3D CADモデルの作成など、専門的な建築タスクを民主化する可能性があります。
このペーパーでは、建築3D合成のタスクにおけるGPT-4OとClaude 3.5の2つのシステムの比較評価を紹介します。
Palladioの4冊の建築書(1965年)の2つの建物、Villa RotondaとPalazzo Portoの2つの建物に関するケーススタディを実施しています。
これらの建物の高レベルの建築モデルと図面は、Palladioの元のテキストと図面に触発され、準備されました。
シーケンシャルテキストと画像のプロンプトを通じて、(1)図面からの建物の2Dおよび3D表現の解釈、(2)建物をCADソフトウェアスクリプトにエンコードすること、および(3)出力に基づく自己改善のシステムの能力を評価します。
両方のシステムは個々の部品を正常に生成しますが、これらの部分を望ましい空間関係に正確に組み立てるのに苦労しています。クロード3.5は、特にその出力の自己修正において、パフォーマンスの向上を実証します。
この研究は、規律固有の知識を必要とするインテリジェントな人間のタスクを実行する際に、既製のAIシステムの長所と短所のベンチマークに関する継続的な研究に貢献しています。
調査結果は、言語対応のAIシステムが建築設計プロセスで共同技術アシスタントとして機能する可能性を強調しています。

要約(オリジナル)

Recent advancements in multimodal Generative AI have the potential to democratize specialized architectural tasks, such as interpreting technical drawings and creating 3D CAD models, which traditionally require expert knowledge. This paper presents a comparative evaluation of two systems: GPT-4o and Claude 3.5, in the task of architectural 3D synthesis. We conduct a case study on two buildings from Palladio’s Four Books of Architecture (1965): Villa Rotonda and Palazzo Porto. High-level architectural models and drawings of these buildings were prepared, inspired by Palladio’s original texts and drawings. Through sequential text and image prompting, we assess the systems’ abilities in (1) interpreting 2D and 3D representations of buildings from drawings, (2) encoding the buildings into a CAD software script, and (3) self-improving based on outputs. While both systems successfully generate individual parts, they struggle to accurately assemble these parts into the desired spatial relationships, with Claude 3.5 demonstrating better performance, particularly in self-correcting its output. This study contributes to ongoing research on benchmarking the strengths and weaknesses of off-the-shelf AI systems in performing intelligent human tasks that require discipline-specific knowledge. The findings highlight the potential of language-enabled AI systems to act as collaborative technical assistants in the architectural design process.

arxiv情報

著者 Jingfei Huang,Alexandros Haridis
発行日 2025-03-04 18:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Evaluation of Architectural Synthesis Using Generative AI はコメントを受け付けていません

Anytime-Constrained Equilibria in Polynomial Time

要約

いつでも制約をマルコフゲームの設定と、いつでも制約のある平衡(ACE)の対応するソリューションの概念に拡張します。
次に、(1)実行可能なポリシーの計算特性、(2)ACEを計算するための固定パラメーターの扱いやすいアルゴリズム、および(3)ACEのほぼ計算の多項式時間アルゴリズムを含む、いつでも制約のある平衡の包括的な理論を提示します。
実行可能なポリシーは、2プレイヤーのゼロサムゲームでもNPハードであるため、$ p \ neq np $の場合、近似保証は最適です。
また、アクション制限されたマルコフゲームのための効率的な計算の最初の理論を開発します。これは、独立した関心事かもしれません。

要約(オリジナル)

We extend anytime constraints to the Markov game setting and the corresponding solution concept of an anytime-constrained equilibrium (ACE). Then, we present a comprehensive theory of anytime-constrained equilibria that includes (1) a computational characterization of feasible policies, (2) a fixed-parameter tractable algorithm for computing ACE, and (3) a polynomial-time algorithm for approximately computing ACE. Since computing a feasible policy is NP-hard even for two-player zero-sum games, our approximation guarantees are optimal so long as $P \neq NP$. We also develop the first theory of efficient computation for action-constrained Markov games, which may be of independent interest.

arxiv情報

著者 Jeremy McMahan
発行日 2025-03-04 18:40:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.GT, cs.LG | Anytime-Constrained Equilibria in Polynomial Time はコメントを受け付けていません

Language Models can Self-Improve at State-Value Estimation for Better Search

要約

グラウンドトゥルースタスクの完了報酬またはマルチステップ推論タスクの人間のデモンストレーションの収集は、特にWebタスクのようなインタラクティブなドメインで、コストがかかり、時間がかかることがよくあります。
このボトルネックに対処するために、状態移動ダイナミクスを活用して言語モデル制御の検索を効果的にガイドできるバリューモデルをトレーニングする自己監視方法である独学のLookaheadを提示します。
独学で改善された中程度のサイズの(80億パラメーター)オープンウェイト値モデルは、GPT-4OなどのフロンティアLLMを値モデルとして使用することのパフォーマンスと一致することがわかります。
さらに、自己評価のlookaheadは、グラウンドトゥルースの報酬に依存することなく、以前のLLMベースのツリー検索と比較して37倍のコストを削減しながら、パフォーマンスを20%向上させることがわかります。

要約(オリジナル)

Collecting ground truth task completion rewards or human demonstrations for multi-step reasoning tasks is often cost-prohibitive and time-consuming, especially in interactive domains like web tasks. To address this bottleneck, we present self-taught lookahead, a self-supervised method that leverages state-transition dynamics to train a value model capable of effectively guiding language model-controlled search. We find that moderately sized (8 billion parameters) open-weight value models improved with self-taught lookahead can match the performance of using a frontier LLM such as gpt-4o as the value model. Furthermore, we find that self-taught lookahead improves performance by 20% while reducing costs 37x compared to previous LLM-based tree search, without relying on ground truth rewards.

arxiv情報

著者 Ethan Mendes,Alan Ritter
発行日 2025-03-04 18:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Language Models can Self-Improve at State-Value Estimation for Better Search はコメントを受け付けていません

Wikipedia in the Era of LLMs: Evolution and Risks

要約

この論文では、ウィキペディアに対する大規模な言語モデル(LLMS)の影響の徹底的な分析を提示し、既存のデータを介したウィキペディアの進化を調べ、シミュレーションを使用して潜在的なリスクを調査します。
まず、ページビューと記事の内容を分析して、ウィキペディアの最近の変更を調査し、LLMSの影響を評価します。
その後、LLMSがウィキペディアに関連するさまざまな自然言語処理(NLP)タスクにどのように影響するかを評価します。
私たちの調査結果とシミュレーション結果は、ウィキペディアの記事がLLMSの影響を受けており、特定のカテゴリで約1%〜2%の影響を受けていることが明らかになりました。
ウィキペディアに基づく機械翻訳ベンチマークがLLMSの影響を受けた場合、モデルのスコアが膨らむ可能性があり、モデル間の比較結果もシフトする可能性があります。
さらに、知識ベースがLLM生成コンテンツによって汚染されると、RAGの有効性が低下する可能性があります。
LLMはウィキペディアの言語と知識の構造をまだ完全に変更していませんが、私たちの経験的調査結果は、潜在的な将来のリスクを慎重に検討する必要性を示していると考えています。

要約(オリジナル)

In this paper, we present a thorough analysis of the impact of Large Language Models (LLMs) on Wikipedia, examining the evolution of Wikipedia through existing data and using simulations to explore potential risks. We begin by analyzing page views and article content to study Wikipedia’s recent changes and assess the impact of LLMs. Subsequently, we evaluate how LLMs affect various Natural Language Processing (NLP) tasks related to Wikipedia, including machine translation and retrieval-augmented generation (RAG). Our findings and simulation results reveal that Wikipedia articles have been influenced by LLMs, with an impact of approximately 1%-2% in certain categories. If the machine translation benchmark based on Wikipedia is influenced by LLMs, the scores of the models may become inflated, and the comparative results among models might shift as well. Moreover, the effectiveness of RAG might decrease if the knowledge base becomes polluted by LLM-generated content. While LLMs have not yet fully changed Wikipedia’s language and knowledge structures, we believe that our empirical findings signal the need for careful consideration of potential future risks.

arxiv情報

著者 Siming Huang,Yuliang Xu,Mingmeng Geng,Yao Wan,Dongping Chen
発行日 2025-03-04 18:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | Wikipedia in the Era of LLMs: Evolution and Risks はコメントを受け付けていません

Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation

要約

人間は、ビジョンとタッチを使用して複雑な接触豊富なタスクを達成でき、環境の変化に対する迅速な調整や接触力の適応制御などの非常に反応性のある機能を備えています。
ただし、これはロボットにとって挑戦的なままです。
既存の視覚的模倣学習(IL)アプローチは、複雑な動作をモデル化するためのアクションチャンキングに依存しています。
さらに、ほとんどのテレオ操作システムは、実行できるタスクの範囲を制限する微調整された触覚 /力のフィードバックを提供するのに苦労しています。
これらの課題に対処するために、拡張現実(AR)を介してリアルタイムの触覚フィードバックを提供する低コストの視聴システム(AR)と、接触豊富な操作スキルを学習するための新規遅い視覚視覚模倣学習アルゴリズムであるReactive拡散ポリシー(RDP)とともに、Tactarを紹介します。
RDPは、2レベルの階層を採用しています。(1)低周波数の潜在空間での高レベルのアクションチャンクを予測するための遅い潜在的拡散ポリシー、(2)高周波での閉ループ触覚フィードバック制御のための高速非対称トークネザー。
この設計により、統一されたフレームワーク内で複雑な軌跡モデリングと迅速な反応挙動の両方が可能になります。
3つの挑戦的な接触豊富なタスクにわたる広範な評価を通じて、RDPは、触覚 /力のフィードバックに対する迅速な反応を通じて、最先端の視覚的なILベースラインと比較してパフォーマンスを大幅に向上させます。
さらに、実験では、RDPが異なる触覚 /力センサーに適用可能であることが示されています。
コードとビデオは、https://reative-diffusion-policy.github.io/で入手できます。

要約(オリジナル)

Humans can accomplish complex contact-rich tasks using vision and touch, with highly reactive capabilities such as quick adjustments to environmental changes and adaptive control of contact forces; however, this remains challenging for robots. Existing visual imitation learning (IL) approaches rely on action chunking to model complex behaviors, which lacks the ability to respond instantly to real-time tactile feedback during the chunk execution. Furthermore, most teleoperation systems struggle to provide fine-grained tactile / force feedback, which limits the range of tasks that can be performed. To address these challenges, we introduce TactAR, a low-cost teleoperation system that provides real-time tactile feedback through Augmented Reality (AR), along with Reactive Diffusion Policy (RDP), a novel slow-fast visual-tactile imitation learning algorithm for learning contact-rich manipulation skills. RDP employs a two-level hierarchy: (1) a slow latent diffusion policy for predicting high-level action chunks in latent space at low frequency, (2) a fast asymmetric tokenizer for closed-loop tactile feedback control at high frequency. This design enables both complex trajectory modeling and quick reactive behavior within a unified framework. Through extensive evaluation across three challenging contact-rich tasks, RDP significantly improves performance compared to state-of-the-art visual IL baselines through rapid response to tactile / force feedback. Furthermore, experiments show that RDP is applicable across different tactile / force sensors. Code and videos are available on https://reactive-diffusion-policy.github.io/.

arxiv情報

著者 Han Xue,Jieji Ren,Wendi Chen,Gu Zhang,Yuan Fang,Guoying Gu,Huazhe Xu,Cewu Lu
発行日 2025-03-04 18:58:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation はコメントを受け付けていません