Representation Improvement in Latent Space for Search-Based Testing of Autonomous Robotic Systems

要約

自動運転車や無人航空機などの自律的なロボットシステムのテストは、非常に予測不可能な環境との相互作用のために挑戦的です。
一般的な慣行は、最初にシミュレーションベースのテストを実施することです。これは、実世界のリスクを減らしたにもかかわらず、可能なテストシナリオの広大な空間のために時間がかかり、リソース集約的なままです。
テストシナリオをより効率的に生成するために、多くの検索ベースのアプローチが提案されました。
検索ベースのテスト生成アプローチの重要な側面は、検索プロセス中に使用される表現の選択です。
ただし、テストシナリオ表現を改善するための既存の方法はまだ限られています。
リラスト(検索ベースのテストのための潜在スペースの表現改善)アプローチを提案します。これにより、テスト表現は、変分自動エンコーダーの潜在空間にマッピングすることでテスト表現を強化します。
自律ドローンと自律レーンキーピングアシストシステムを含む2つのユースケースでRilastを評価します。
得られた結果は、リラストにより、ベースラインのアプローチよりも3〜4.6倍の障害が発見され、高レベルのテストの多様性が達成されることを示しています。

要約(オリジナル)

Testing autonomous robotic systems, such as self-driving cars and unmanned aerial vehicles, is challenging due to their interaction with highly unpredictable environments. A common practice is to first conduct simulation-based testing, which, despite reducing real-world risks, remains time-consuming and resource-intensive due to the vast space of possible test scenarios. A number of search-based approaches were proposed to generate test scenarios more efficiently. A key aspect of any search-based test generation approach is the choice of representation used during the search process. However, existing methods for improving test scenario representation remain limited. We propose RILaST (Representation Improvement in Latent Space for Search-Based Testing) approach, which enhances test representation by mapping it to the latent space of a variational autoencoder. We evaluate RILaST on two use cases, including autonomous drone and autonomous lane-keeping assist system. The obtained results show that RILaST allows finding between 3 to 4.6 times more failures than baseline approaches, achieving a high level of test diversity.

arxiv情報

著者 Dmytro Humeniuk,Foutse Khomh
発行日 2025-03-26 15:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NE, cs.RO | Representation Improvement in Latent Space for Search-Based Testing of Autonomous Robotic Systems はコメントを受け付けていません

Immersive and Wearable Thermal Rendering for Augmented Reality

要約

デジタルコンテンツが現実の世界に覆われている拡張現実(AR)では、現実的な熱フィードバックが浸漬を強化することが示されています。
しかし、仮想現実のニーズに大きく影響される現在の熱フィードバックデバイスは、しばしば物理的相互作用を妨げ、ARに没頭するのに効果がありません。
このギャップを埋めるために、ARサーマルフィードバックに関連する3つの設計上の考慮事項を特定しました:器用さを維持するための間接フィードバック、実際の温度知覚を保持するための熱パススルー、および動的感覚のための空間的レンダリング。
次に、これらの基準を満たすユニークで革新的な熱フィードバックデバイスを作成しました。
知覚感度、オブジェクトの温度マッチング、空間パターン認識、および動く熱刺激​​を評価するヒト被験者実験により、設計の影響が示され、現実的な温度識別、仮想オブジェクト知覚、浸漬の強化が可能になりました。
これらの発見は、慎重に設計された熱フィードバックシステムが、物理的相互作用と仮想相互作用の間の感覚ギャップを埋め、ARリアリズムと使いやすさを高めることができることを示しています。

要約(オリジナル)

In augmented reality (AR), where digital content is overlaid onto the real world, realistic thermal feedback has been shown to enhance immersion. Yet current thermal feedback devices, heavily influenced by the needs of virtual reality, often hinder physical interactions and are ineffective for immersion in AR. To bridge this gap, we have identified three design considerations relevant for AR thermal feedback: indirect feedback to maintain dexterity, thermal passthrough to preserve real-world temperature perception, and spatiotemporal rendering for dynamic sensations. We then created a unique and innovative thermal feedback device that satisfies these criteria. Human subject experiments assessing perceptual sensitivity, object temperature matching, spatial pattern recognition, and moving thermal stimuli demonstrated the impact of our design, enabling realistic temperature discrimination, virtual object perception, and enhanced immersion. These findings demonstrate that carefully designed thermal feedback systems can bridge the sensory gap between physical and virtual interactions, enhancing AR realism and usability.

arxiv情報

著者 Alexandra Watkins,Ritam Ghosh,Evan Chow,Nilanjan Sarkar
発行日 2025-03-26 15:40:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO, cs.SY, eess.SY | Immersive and Wearable Thermal Rendering for Augmented Reality はコメントを受け付けていません

Toward Dynamic Control of Tendon-Driven Continuum Robots using Clarke Transform

要約

この論文では、複数のセグメントと任意の数の腱ごとの腱駆動型の連続体ロボットの動的モデルと制御フレームワークを提案します。
私たちのアプローチは、クラーク変換、オイラー – ラグランジュの形式主義、および区分的な一定の曲率の仮定を活用して、本質的に腱の制約を満たすジョイント空間に埋め込まれた2次元の多様体に動的モデルを策定します。
このマニホールドで直接動作する線形コントローラーと、コントロールの忠実度を損なうことなく負の腱力を防ぐための実用的な方法を提示します。
これらのアプローチは、シミュレーションおよび1つのセグメントと5つの腱を持つ物理プロトタイプで検証し、リアルタイム条件下での正確な動的な動作と堅牢な軌道追跡を実証します。

要約(オリジナル)

In this paper, we propose a dynamic model and control framework for tendon-driven continuum robots with multiple segments and an arbitrary number of tendons per segment. Our approach leverages the Clarke transform, the Euler-Lagrange formalism, and the piecewise constant curvature assumption to formulate a dynamic model on a two-dimensional manifold embedded in the joint space that inherently satisfies tendon constraints. We present linear controllers that operate directly on this manifold, along with practical methods for preventing negative tendon forces without compromising control fidelity. We validate these approaches in simulation and on a physical prototype with one segment and five tendons, demonstrating accurate dynamic behavior and robust trajectory tracking under real-time conditions.

arxiv情報

著者 Christian Muhmann,Reinhard M. Grassmann,Max Bartholdt,Jessica Burgner-Kahrs
発行日 2025-03-26 16:24:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Toward Dynamic Control of Tendon-Driven Continuum Robots using Clarke Transform はコメントを受け付けていません

Beyond Visuals: Investigating Force Feedback in Extended Reality for Robot Data Collection

要約

この作業では、強制フィードバックが拡張現実(XR)設定内のロボットデータ収集のさまざまな側面にどのように影響するかを探ります。
フォースフィードバックは、連絡先が豊富な情報を提供することにより、拡張現実(XR)でのユーザーエクスペリエンスを強化することが証明されています。
ただし、ロボットデータ収集への影響は、ロボットコミュニティであまり注目されていません。
このペーパーでは、XRのデータ収集中のフォースフィードバックの影響に関する広範なユーザー調査を実施することにより、この欠点について説明します。
触覚フィードバック機能を備えた、2つのXRベースのロボット制御インターフェイス、運動感覚教育とモーションコントローラーを拡張しました。
ユーザー調査は、単純なピックプレイスから複雑なPEGアセンブルまでの範囲の操作タスクを使用して実施され、正確な操作が必要です。
評価は、特に高精度の操作を必要とするタスクで、強制フィードバックがタスクのパフォーマンスとユーザーエクスペリエンスを強化することを示しています。
これらの改善は、ロボット制御インターフェイスとタスクの複雑さによって異なります。
このペーパーでは、さまざまな要因がフォースフィードバックの影響にどのように影響するかについての新しい洞察を提供します。

要約(オリジナル)

This work explores how force feedback affects various aspects of robot data collection within the Extended Reality (XR) setting. Force feedback has been proved to enhance the user experience in Extended Reality (XR) by providing contact-rich information. However, its impact on robot data collection has not received much attention in the robotics community. This paper addresses this shortcoming by conducting an extensive user study on the effects of force feedback during data collection in XR. We extended two XR-based robot control interfaces, Kinesthetic Teaching and Motion Controllers, with haptic feedback features. The user study is conducted using manipulation tasks ranging from simple pick-place to complex peg assemble, requiring precise operations. The evaluations show that force feedback enhances task performance and user experience, particularly in tasks requiring high-precision manipulation. These improvements vary depending on the robot control interface and task complexity. This paper provides new insights into how different factors influence the impact of force feedback.

arxiv情報

著者 Xueyin Li,Xinkai Jiang,Philipp Dahlinger,Gerhard Neumann,Rudolf Lioutikov
発行日 2025-03-26 16:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Beyond Visuals: Investigating Force Feedback in Extended Reality for Robot Data Collection はコメントを受け付けていません

Multi-Robot Coordination Under Physical Limitations

要約

マルチロボット調整は、自律探査、捜索救助、協同輸送など、さまざまなアプリケーションの基本です。
このペーパーでは、エネルギー消費を最小限に抑え、アクチュエータの制約に対処しながら効率的なランデブーを保証するマルチロボットシステム(MRSS)の最適なコンセンサスフレームワークを紹介します。
現実世界の展開における重要な課題は、アクチュエーターの制限、特にホイール速度飽和度であり、コントロールパフォーマンスを大幅に低下させる可能性があります。
この問題に対処するために、ポントリアギン最小原則(PMP)を制御設計に組み込み、システムの安定性と実現可能性を確保しながら、制約された最適化を促進します。
結果として生じる最適な制御ポリシーは、作動の制約が存在する場合でも、調整効率とエネルギー消費のバランスを効果的にバランスさせます。
提案されたフレームワークは、ロボタリウムモバイルロボットのチームを使用して実施された広範な数値シミュレーションと実世界の実験を通じて検証されます。
実験結果は、当社の制御戦略が信頼できる効率的な調整されたランデブーを達成しながら、通信の遅延、センサーノイズ、パケット損失などの実際の課題に対処していることを確認しています。

要約(オリジナル)

Multi-robot coordination is fundamental to various applications, including autonomous exploration, search and rescue, and cooperative transportation. This paper presents an optimal consensus framework for multi-robot systems (MRSs) that ensures efficient rendezvous while minimizing energy consumption and addressing actuator constraints. A critical challenge in real-world deployments is actuator limitations, particularly wheel velocity saturation, which can significantly degrade control performance. To address this issue, we incorporate Pontryagin Minimum Principle (PMP) into the control design, facilitating constrained optimization while ensuring system stability and feasibility. The resulting optimal control policy effectively balances coordination efficiency and energy consumption, even in the presence of actuation constraints. The proposed framework is validated through extensive numerical simulations and real-world experiments conducted using a team of Robotarium mobile robots. The experimental results confirm that our control strategies achieve reliable and efficient coordinated rendezvous while addressing real-world challenges such as communication delays, sensor noise, and packet loss.

arxiv情報

著者 Tohid Kargar Tasooji,Sakineh Khodadadi
発行日 2025-03-26 17:06:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Multi-Robot Coordination Under Physical Limitations はコメントを受け付けていません

Flying Vines: Design, Modeling, and Control of a Soft Aerial Robotic Arm

要約

空中ロボットアームは、空中から到達しにくい地域で検査と環境の相互作用を可能にすることを目指しています。
ただし、多くの空中マニピュレーターは、大きくて高給の空中車両に取り付けられたかさばるまたは重いロボットマニピュレーターを備えています。
代わりに、低質量と「フライ​​ングヴァイン」と呼ばれる小さな収納構成を備えた空中ロボットアームを提案します。
空飛ぶブドウは、腕のように柔らかく成長した膨らんだビームを備えた、小さくて操縦可能な四角体で構成されています。
このソフトロボットアームは不十分であり、エンドエフェクターの配置は、結合した四角い紫色のダイナミクスを制御することで実現されます。
この作業では、希望のエンドエフェクター軌道を追跡するためのフライングバインデザインとモデリングおよび制御フレームワークを紹介します。
動的モデルは、データ駆動型モデリング方法を活用し、時間変動の動的パラメーターを説明するために双線形補間を導入します。
軌跡の最適化を使用して、望ましいエンドエフェクター運動を生成する四輪制御を計画します。
物理的なプロトタイプの実験結果は、私たちのフレームワークにより、空飛ぶブドウが高速末端エフェクター追跡を実行できることを示しており、ソフト航空マニピュレーターで動的操作を実行するための基礎を築きます。

要約(オリジナル)

Aerial robotic arms aim to enable inspection and environment interaction in otherwise hard-to-reach areas from the air. However, many aerial manipulators feature bulky or heavy robot manipulators mounted to large, high-payload aerial vehicles. Instead, we propose an aerial robotic arm with low mass and a small stowed configuration called a ‘flying vine’. The flying vine consists of a small, maneuverable quadrotor equipped with a soft, growing, inflated beam as the arm. This soft robot arm is underactuated, and positioning of the end effector is achieved by controlling the coupled quadrotor-vine dynamics. In this work, we present the flying vine design and a modeling and control framework for tracking desired end effector trajectories. The dynamic model leverages data-driven modeling methods and introduces bilinear interpolation to account for time-varying dynamic parameters. We use trajectory optimization to plan quadrotor controls that produce desired end effector motions. Experimental results on a physical prototype demonstrate that our framework enables the flying vine to perform high-speed end effector tracking, laying a foundation for performing dynamic maneuvers with soft aerial manipulators.

arxiv情報

著者 Rianna Jitosho,Crystal E. Winston,Shengan Yang,Jinxin Li,Maxwell Ahlquist,Nicholas John Woehrle,C. Karen Liu,Allison M. Okamura
発行日 2025-03-26 17:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Flying Vines: Design, Modeling, and Control of a Soft Aerial Robotic Arm はコメントを受け付けていません

Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery

要約

模倣学習は、専門家の行動からのポリシーを学習するためのデータ駆動型のアプローチですが、サンプル外(OOS)地域では信頼できない結果が生じる傾向があります。
安定した動的システムに依存している以前の研究は、望ましい状態への収束を保証しますが、しばしば一時的な動作を見落としています。
契約上の動的システムによってモデル化されたポリシーを学習するためのフレームワークを提案し、すべてのポリシーロールアウトが摂動に関係なく収束し、次に効率的なOOS回復を可能にすることを保証します。
再発性平衡ネットワークとカップリング層を活用することにより、ポリシー構造は、制約のない最適化を容易にするパラメーター選択の契約性を保証します。
また、展開における方法の信頼性を厳密に確立するために、最悪のケースと予想される損失の理論上の上限を提供します。
経験的には、シミュレートされたロボット操作とナビゲーションタスクの大幅なOOSパフォーマンスの改善を示します。

要約(オリジナル)

Imitation learning is a data-driven approach to learning policies from expert behavior, but it is prone to unreliable outcomes in out-of-sample (OOS) regions. While previous research relying on stable dynamical systems guarantees convergence to a desired state, it often overlooks transient behavior. We propose a framework for learning policies modeled by contractive dynamical systems, ensuring that all policy rollouts converge regardless of perturbations, and in turn, enable efficient OOS recovery. By leveraging recurrent equilibrium networks and coupling layers, the policy structure guarantees contractivity for any parameter choice, which facilitates unconstrained optimization. We also provide theoretical upper bounds for worst-case and expected loss to rigorously establish the reliability of our method in deployment. Empirically, we demonstrate substantial OOS performance improvements for simulated robotic manipulation and navigation tasks.

arxiv情報

著者 Amin Abyaneh,Mahrokh G. Boroujeni,Hsiu-Chin Lin,Giancarlo Ferrari-Trecate
発行日 2025-03-26 13:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, stat.ML | Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery はコメントを受け付けていません

Regression-Based Estimation of Causal Effects in the Presence of Selection Bias and Confounding

要約

治療$ x $が介入によって設定され、連続ランダム変数に焦点を当てた場合、ターゲット変数$ y $の予想される因果効果$ e [y | do(x)] $を推定する問題を考慮します。
選択バイアスや交絡なしの設定では、$ e [y | do(x)] = e [y | x] $を使用して、標準回帰法を使用して推定できます。
ただし、選択バイアスによって誘導される体系的な欠落や交絡がデータを歪めた場合、回帰は失敗します。
Boeken et al。
[2023]トレーニングデータが選択の対象となる場合、このプロセスの影響を受けないプロキシ変数は、特定の制約の下で、選択バイアスを修正して$ e [y | x] $、したがって$ e [y | do(x)] $を確実に推定できることを示しています。
ただし、データがさらに交絡の影響を受ける場合、この平等はもはや有効ではありません。
これらの結果に基づいて、より一般的な設定を検討し、選択バイアスと交絡の両方を組み込んだフレームワークを提案します。
具体的には、外部データおよびプロキシ変数へのアクセスの下で因果効果の識別可能性と回復可能性を保証する理論的条件を導き出します。
さらに、2段階の回帰推定器(TSR)を導入し、交絡を考慮しながら選択バイアスを調整するためにプロキシ変数を活用できます。
交絡がない場合、TSRは以前の作業と一致するが、より低い分散を達成することを示します。
大規模なシミュレーション研究では、選択バイアスとプロキシ変数と交絡する両方のシナリオに対するTSRの正確性を検証します。

要約(オリジナル)

We consider the problem of estimating the expected causal effect $E[Y|do(X)]$ for a target variable $Y$ when treatment $X$ is set by intervention, focusing on continuous random variables. In settings without selection bias or confounding, $E[Y|do(X)] = E[Y|X]$, which can be estimated using standard regression methods. However, regression fails when systematic missingness induced by selection bias, or confounding distorts the data. Boeken et al. [2023] show that when training data is subject to selection, proxy variables unaffected by this process can, under certain constraints, be used to correct for selection bias to estimate $E[Y|X]$, and hence $E[Y|do(X)]$, reliably. When data is additionally affected by confounding, however, this equality is no longer valid. Building on these results, we consider a more general setting and propose a framework that incorporates both selection bias and confounding. Specifically, we derive theoretical conditions ensuring identifiability and recoverability of causal effects under access to external data and proxy variables. We further introduce a two-step regression estimator (TSR), capable of exploiting proxy variables to adjust for selection bias while accounting for confounding. We show that TSR coincides with prior work if confounding is absent, but achieves a lower variance. Extensive simulation studies validate TSR’s correctness for scenarios which may include both selection bias and confounding with proxy variables.

arxiv情報

著者 Marlies Hafer,Alexander Marx
発行日 2025-03-26 13:43:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | Regression-Based Estimation of Causal Effects in the Presence of Selection Bias and Confounding はコメントを受け付けていません

Injecting Adrenaline into LLM Serving: Boosting Resource Utilization and Throughput via Attention Disaggregation

要約

大規模な言語モデル(LLM)サービスシステムでは、各リクエストを実行することは、計算集約型プレフィルフェーズとメモリ集約型デコードフェーズの2つのフェーズで構成されています。
2つのフェーズ間のパフォーマンス干渉を防ぐために、現在のLLMサービングシステムは通常、Prefill-Decodingの分解を採用します。ここで、2つのフェーズが別々のマシンに分割されます。
ただし、このアプローチが重要なリソースの十分な活用につながることを観察します。
具体的には、計算集約型のPrefillインスタンスは、メモリの使用率が低いことに苦しんでいますが、メモリ集約型エクスペリエンスの低い計算使用率であるインスタンスを解読します。
この問題に対処するために、このペーパーでは、LLMサービングシステムのリソース利用とパフォーマンスを強化するために設計された、アドレナリン、注意分解とオフロードメカニズムを提案します。
アドレナリンの重要な革新は、デコードフェーズでの注意計算の一部を分解し、それらをプレフィルインスタンスにオフロードすることにあります。
デコード相注意計算のメモリに縛られた性質により、効果的なオフロード戦略を本質的に可能にし、2つの補完的な利点をもたらします。1)プレフィルインスタンスでのメモリ容量と帯域幅の使用率を改善し、2)デコードの使用率を高め、デコードインスタンスのコンピューティングを強化し、全体的なシステムのパフォーマンスを増やします。
アドレナリンは、低遅延のデコード同期、リソース効率の高いPrefillコロケーション、負荷を受け取るオフロードスケジューリングの3つの重要な手法を通じて、これらの利益を達成します。
実験結果は、アドレナリンがプレフィルインスタンスで2.28倍高いメモリ容量と2.07倍のメモリ帯域幅の利用を達成し、デコードインスタンスのコンピューティング利用率が最大1.67倍の改善、および最先端のシステムと比較して1.68倍の全体的な推論スループットを達成することを示しています。

要約(オリジナル)

In large language model (LLM) serving systems, executing each request consists of two phases: the compute-intensive prefill phase and the memory-intensive decoding phase. To prevent performance interference between the two phases, current LLM serving systems typically adopt prefill-decoding disaggregation, where the two phases are split across separate machines. However, we observe this approach leads to significant resource underutilization. Specifically, prefill instances that are compute-intensive suffer from low memory utilization, while decoding instances that are memory-intensive experience low compute utilization. To address this problem, this paper proposes Adrenaline, an attention disaggregation and offloading mechanism designed to enhance resource utilization and performance in LLM serving systems. Adrenaline’s key innovation lies in disaggregating part of the attention computation in the decoding phase and offloading them to prefill instances. The memory-bound nature of decoding-phase attention computation inherently enables an effective offloading strategy, yielding two complementary advantages: 1) improved memory capacity and bandwidth utilization in prefill instances, and 2) increased decoding batch sizes that enhance compute utilization in decoding instances, collectively boosting overall system performance. Adrenaline achieves these gains through three key techniques: low-latency decoding synchronization, resource-efficient prefill colocation, and load-aware offloading scheduling. Experimental results show that Adrenaline achieves 2.28x higher memory capacity and 2.07x better memory bandwidth utilization in prefill instances, up to 1.67x improvements in compute utilization for decoding instances, and 1.68x higher overall inference throughput compared to state-of-the-art systems.

arxiv情報

著者 Yunkai Liang,Zhangyu Chen,Pengfei Zuo,Zhi Zhou,Xu Chen,Zhou Yu
発行日 2025-03-26 13:48:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG | Injecting Adrenaline into LLM Serving: Boosting Resource Utilization and Throughput via Attention Disaggregation はコメントを受け付けていません

A Theoretical Framework for Prompt Engineering: Approximating Smooth Functions with Transformer Prompts

要約

迅速なエンジニアリングは、望ましい応答に向けて大規模な言語モデル(LLM)を導くための強力な手法として浮上し、多様なタスク全体でパフォーマンスを大幅に向上させています。
静的予測因子としての役割を超えて、LLMはインテリジェントエージェントとしてますます機能し、推論、意思決定、複雑な環境への動的に適応することができます。
ただし、迅速なエンジニアリングの理論的基盤は、ほとんど未踏のままです。
このホワイトペーパーでは、慎重に設計されたプロンプトが提供された場合、推論中に「仮想」ニューラルネットワークをエミュレートすることにより、構成可能な計算システムとして機能できることを示す正式なフレームワークを紹介します。
具体的には、入力プロンプトは、対応するネットワーク構成に効果的に変換され、LLMが内部計算を動的に調整できるようにします。
この構造に基づいて、私たちは$ \ beta $ -timesの微分機能の近似理論を確立し、適切に構造化されたプロンプトに導かれた場合、変圧器がそのような機能を任意の精度で近似できることを証明します。
さらに、私たちのフレームワークは、より長い構造化されたプロンプトの使用、無関係な情報のフィルタリング、プロンプトトークンの多様性の向上、マルチエージェントの相互作用の活用など、いくつかの経験的に成功したプロンプトエンジニアリング手法の理論的正当化を提供します。
LLMを静的モデルではなく適応可能なエージェントとしてフレーミングすることにより、私たちの調査結果は、自律的な推論と問題解決の可能性を強調し、迅速なエンジニアリングとAIエージェントの設計におけるより堅牢で理論的に根拠のある進歩への道を開きます。

要約(オリジナル)

Prompt engineering has emerged as a powerful technique for guiding large language models (LLMs) toward desired responses, significantly enhancing their performance across diverse tasks. Beyond their role as static predictors, LLMs increasingly function as intelligent agents, capable of reasoning, decision-making, and adapting dynamically to complex environments. However, the theoretical underpinnings of prompt engineering remain largely unexplored. In this paper, we introduce a formal framework demonstrating that transformer models, when provided with carefully designed prompts, can act as a configurable computational system by emulating a “virtual” neural network during inference. Specifically, input prompts effectively translate into the corresponding network configuration, enabling LLMs to adjust their internal computations dynamically. Building on this construction, we establish an approximation theory for $\beta$-times differentiable functions, proving that transformers can approximate such functions with arbitrary precision when guided by appropriately structured prompts. Moreover, our framework provides theoretical justification for several empirically successful prompt engineering techniques, including the use of longer, structured prompts, filtering irrelevant information, enhancing prompt token diversity, and leveraging multi-agent interactions. By framing LLMs as adaptable agents rather than static models, our findings underscore their potential for autonomous reasoning and problem-solving, paving the way for more robust and theoretically grounded advancements in prompt engineering and AI agent design.

arxiv情報

著者 Ryumei Nakada,Wenlong Ji,Tianxi Cai,James Zou,Linjun Zhang
発行日 2025-03-26 13:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | A Theoretical Framework for Prompt Engineering: Approximating Smooth Functions with Transformer Prompts はコメントを受け付けていません