TACO: General Acrobatic Flight Control via Target-and-Command-Oriented Reinforcement Learning

要約

アクロバティックな飛行制御は広範囲に研究されていますが、既存の方法の重要な制限の1つは、通常、特定の操作タスクに制限されており、フライトパターンパラメーターをオンラインで変更できないことです。
この作業では、ターゲットとコマンド指向の強化学習(TACO)フレームワークを提案します。これは、異なる操作タスクを統一された方法で処理し、オンラインパラメーターの変更を可能にすることができます。
さらに、ポリシーの時間的および空間的な滑らかさ、独立性、および対称性を高めるために、入出力の再スケーリングを備えたスペクトル正規化方法を提案し、それによりSIMからリアルのギャップを克服します。
大規模なシミュレーションと現実世界の実験を通じてTACOアプローチを検証し、高速循環フライトと連続的なマルチフリップを達成する能力を実証します。

要約(オリジナル)

Although acrobatic flight control has been studied extensively, one key limitation of the existing methods is that they are usually restricted to specific maneuver tasks and cannot change flight pattern parameters online. In this work, we propose a target-and-command-oriented reinforcement learning (TACO) framework, which can handle different maneuver tasks in a unified way and allows online parameter changes. Additionally, we propose a spectral normalization method with input-output rescaling to enhance the policy’s temporal and spatial smoothness, independence, and symmetry, thereby overcoming the sim-to-real gap. We validate the TACO approach through extensive simulation and real-world experiments, demonstrating its capability to achieve high-speed circular flights and continuous multi-flips.

arxiv情報

著者 Zikang Yin,Canlun Zheng,Shiliang Guo,Zhikun Wang,Shiyu Zhao
発行日 2025-03-06 12:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | TACO: General Acrobatic Flight Control via Target-and-Command-Oriented Reinforcement Learning はコメントを受け付けていません

Towards Open-Source and Modular Space Systems with ATMOS

要約

近い将来、自律宇宙システムは展開された宇宙船の多くを構成します。
彼らのタスクには、視点の宇宙ステーションの検査、アセンブリ、メンテナンス、共有ワークスペースを介した人間支援タスクなどの大きな構造を備えた自律的なランデブーおよび近接操作が含まれます。
宇宙船の自律的な制御のための複製可能で信頼できる科学的結果を促進するために、オープンソースとモジュラーソフトウェアとハ​​ードウェアに基づいたスペースロボット研究所の設計を紹介します。
シミュレーションソフトウェアは、シミュレートされた結果をハードウェアにシームレスに転送するループインソフトウェアアーキテクチャを提供します。
私たちの結果は、ハードウェアとソフトウェアの結果の比較や、自由飛行プラットフォームを制御するための制御および計画方法を含む、このようなシステムに関する洞察を提供します。

要約(オリジナル)

In the near future, autonomous space systems will compose many of the deployed spacecraft. Their tasks will involve autonomous rendezvous and proximity operations with large structures, such as inspections, assembly, and maintenance of orbiting space stations, as well as human-assistance tasks over shared workspaces. To promote replicable and reliable scientific results for autonomous control of spacecraft, we present the design of a space robotics laboratory based on open-source and modular software and hardware. The simulation software provides a software-in-the-loop architecture that seamlessly transfers simulated results to the hardware. Our results provide an insight into such a system, including comparisons of hardware and software results, as well as control and planning methodologies for controlling free-flying platforms.

arxiv情報

著者 Pedro Roque,Sujet Phodapol,Elias Krantz,Jaeyoung Lim,Joris Verhagen,Frank J. Jiang,David Dörner,Huina Mao,Gunnar Tibert,Roland Siegwart,Ivan Stenius,Jana Tumova,Christer Fuglesang,Dimos V. Dimarogonas
発行日 2025-03-06 12:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Towards Open-Source and Modular Space Systems with ATMOS はコメントを受け付けていません

SeGMan: Sequential and Guided Manipulation Planner for Robust Planning in 2D Constrained Environments

要約

このホワイトペーパーでは、サンプリングベースと最適化ベースのテクニックを統合し、ガイド付きのフォワード検索と、ピックアンドプレイスパズルなどの複雑で制約された連続操作の課題に対処するハイブリッドモーション計画フレームワークであるセグマンを紹介します。
セグマンは、サブゴールの粒度を調整し、全体的な効率を高める適応サブゴール選択方法を組み込んでいます。
さらに、提案された一般化可能なヒューリスティックは、よりターゲットを絞った方法でフォワード検索をガイドします。
多数のオブジェクトと障害物が住む迷路のようなタスクの広範な評価は、セグマンが一貫した計算効率の良い操作計画だけでなく、最先端のアプローチを上回ることもできることを示しています。

要約(オリジナル)

In this paper, we present SeGMan, a hybrid motion planning framework that integrates sampling-based and optimization-based techniques with a guided forward search to address complex, constrained sequential manipulation challenges, such as pick-and-place puzzles. SeGMan incorporates an adaptive subgoal selection method that adjusts the granularity of subgoals, enhancing overall efficiency. Furthermore, proposed generalizable heuristics guide the forward search in a more targeted manner. Extensive evaluations in maze-like tasks populated with numerous objects and obstacles demonstrate that SeGMan is capable of generating not only consistent and computationally efficient manipulation plans but also outperform state-of-the-art approaches.

arxiv情報

著者 Cankut Bora Tuncer,Dilruba Sultan Haliloglu,Ozgur S. Oguz
発行日 2025-03-06 13:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SeGMan: Sequential and Guided Manipulation Planner for Robust Planning in 2D Constrained Environments はコメントを受け付けていません

Tracking Control of Euler-Lagrangian Systems with Prescribed State, Input, and Temporal Constraints

要約

状態、入力、および時間的(SIT)制約によって誘導される厳しい動作領域を持つオイラーラグランジアン(EL)システムのスムーズな追跡制御ポリシーの統合は、非常に困難な作業です。
ELモデルのパラメーターと不確実性の境界に関する事前知識を利用する既存の方法とは対照的に、この研究では、状態および入力制約の下での追跡エラーの局所規定の時間収束を確保するために、近似のない適応バリア機能ベースの制御ポリシーを提案します。
提案された制御ポリシーは、フィルタリングされた追跡エラーに埋め込まれたスムーズな時間ベースのジェネレーター関数を利用することによりこれを達成します。これは、制御アクションを制限し、フィルタリングされた追跡エラーの時間変数を施行することにより規定の制限内に状態を制限する飽和関数と組み合わせます。
重要なことに、最小制御機関に関連する対応する実現可能性条件、制御ポリシーの最大妨害除去能力、および初期条件の実行可能なセットが導出され、SIT制約の相互作用から生じるELシステムの狭い動作ドメインを照らします。
提案されたスキームの有効性を実証するために、3つの異なるロボットマニピュレーターを用いた数値検証研究が採用されています。
提案されたスキームの優れたパフォーマンスを説明するために、主要な代替デザインを使用した詳細なパフォーマンス比較研究も行われます。

要約(オリジナル)

The synthesis of a smooth tracking control policy for Euler-Lagrangian (EL) systems with stringent regions of operation induced by state, input and temporal (SIT) constraints is a very challenging task. In contrast with existing methods that utilize prior knowledge of EL model parameters and uncertainty bounds, this study proposes an approximation-free adaptive barrier function-based control policy to ensure local prescribed time convergence of tracking error under state and input constraints. The proposed control policy accomplishes this by utilizing smooth time-based generator functions embedded in the filtered tracking error, which is combined with a saturation function that limits control action and confines states within the prescribed limits by enforcing the time-varying bounds on the filtered tracking error. Importantly, corresponding feasibility conditions pertaining to the minimum control authority, maximum disturbance rejection capability of the control policy, and the viable set of initial conditions are derived, illuminating the narrow operating domain of the EL systems arising from the interplay of SIT constraints. Numerical validation studies with three different robotic manipulators are employed to demonstrate the efficacy of the proposed scheme. A detailed performance comparison study with leading alternative designs is also undertaken to illustrate the superior performance of the proposed scheme.

arxiv情報

著者 Chidre Shravista Kashyap,Pushpak Jagtap,Jishnu Keshavan
発行日 2025-03-06 13:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Tracking Control of Euler-Lagrangian Systems with Prescribed State, Input, and Temporal Constraints はコメントを受け付けていません

On the Analysis of Stability, Sensitivity and Transparency in Variable Admittance Control for pHRI Enhanced by Virtual Fixtures

要約

物理的な人間とロボットの相互作用(PHRI)への関心は、フォース交換中のユーザーの安全を保証する共同ロボットの利用可能性により、過去20年間で大幅に増加しています。
このため、PHRIアプリケーションの新しい制御スキームを提案しながら、文献では安定性の懸念が広範囲に対処されています。
ロボットの非線形性のため、安定性分析は一般に受動性の概念を活用します。
一方、提案されたアルゴリズムは一般に、ロボットマニピュレーターの理想的なモデルを考慮します。
このため、このペーパーの主な目的は、透過弾力性、運動速度飽和、作動遅延などの寄生効果を考慮することにより、PHRI制御スキームのクラス、すなわちプロキシベースの制約付きアドミタンスコントローラーの不安定性の原因の詳細な分析を実施することです。
次に、制御パラメーターがシステム全体の安定性にどのように影響するかを特定するために、実験結果によってサポートされる感度分析が実行されます。
最後に、Phriの透明性を最大化することを目的として、プロキシパラメーターの適応手法が提案されています。
提案された適応方法は、シミュレーションと実験テストの両方を通じて検証されます。

要約(オリジナル)

The interest in Physical Human-Robot Interaction (pHRI) has significantly increased over the last two decades thanks to the availability of collaborative robots that guarantee user safety during force exchanges. For this reason, stability concerns have been addressed extensively in the literature while proposing new control schemes for pHRI applications. Because of the nonlinear nature of robots, stability analyses generally leverage passivity concepts. On the other hand, the proposed algorithms generally consider ideal models of robot manipulators. For this reason, the primary objective of this paper is to conduct a detailed analysis of the sources of instability for a class of pHRI control schemes, namely proxy-based constrained admittance controllers, by considering parasitic effects such as transmission elasticity, motor velocity saturation, and actuation delay. Next, a sensitivity analysis supported by experimental results is carried out, in order to identify how the control parameters affect the stability of the overall system. Finally, an adaptation technique for the proxy parameters is proposed with the goal of maximizing transparency in pHRI. The proposed adaptation method is validated through both simulations and experimental tests.

arxiv情報

著者 Davide Tebaldi,Dario Onfiani,Luigi Biagiotti
発行日 2025-03-06 13:15:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | On the Analysis of Stability, Sensitivity and Transparency in Variable Admittance Control for pHRI Enhanced by Virtual Fixtures はコメントを受け付けていません

EvidMTL: Evidential Multi-Task Learning for Uncertainty-Aware Semantic Surface Mapping from Monocular RGB Images

要約

構造化されていない環境でのシーンの理解のために、自律システムによる情報に基づいたアクション選択を可能にするために、正確で不確実なメトリックセマンチックなマッピングが必要です。存在するマッピングメソッドは、自信過剰のセマンティック予測、およびまばらで騒がしい深さセンシングに苦しみ、一貫性のない地図の表現につながります。
したがって、このホワイトペーパーでは、深さ推定とセマンティックセグメンテーションに証拠ヘッドを使用するマルチタスク学習フレームワークであるEVIDMTLを導入し、単眼RGB画像からの不確実性を認識した推論を可能にします。
不確実性を調整した証拠マルチタスク学習を可能にするために、証拠セグメンテーション損失と併せて深さ予測の信念強度を共同で最適化する新しい証拠深度損失関数を提案します。
これに基づいて、不確実なセマンティックサーフェスマッピングフレームワークであるEvidkimeraを提示します。
Nyudepthv2でEVIDMTLをトレーニングおよび評価し、SCANNETV2でのゼロショットパフォーマンスを評価し、同等の深度推定とセマンティックセグメンテーションを維持しながら、従来のアプローチと比較して優れた不確実性の推定を実証します。
Scannetv2のゼロショットマッピングテストでは、Evidkimeraはセマンティックサーフェスマッピングの精度と一貫性でKimeraを上回り、不確実性を認識したマッピングの利点を強調し、実際のロボットアプリケーションの可能性を強調しています。

要約(オリジナル)

For scene understanding in unstructured environments, an accurate and uncertainty-aware metric-semantic mapping is required to enable informed action selection by autonomous systems.Existing mapping methods often suffer from overconfident semantic predictions, and sparse and noisy depth sensing, leading to inconsistent map representations. In this paper, we therefore introduce EvidMTL, a multi-task learning framework that uses evidential heads for depth estimation and semantic segmentation, enabling uncertainty-aware inference from monocular RGB images. To enable uncertainty-calibrated evidential multi-task learning, we propose a novel evidential depth loss function that jointly optimizes the belief strength of the depth prediction in conjunction with evidential segmentation loss. Building on this, we present EvidKimera, an uncertainty-aware semantic surface mapping framework, which uses evidential depth and semantics prediction for improved 3D metric-semantic consistency. We train and evaluate EvidMTL on the NYUDepthV2 and assess its zero-shot performance on ScanNetV2, demonstrating superior uncertainty estimation compared to conventional approaches while maintaining comparable depth estimation and semantic segmentation. In zero-shot mapping tests on ScanNetV2, EvidKimera outperforms Kimera in semantic surface mapping accuracy and consistency, highlighting the benefits of uncertainty-aware mapping and underscoring its potential for real-world robotic applications.

arxiv情報

著者 Rohit Menon,Nils Dengler,Sicong Pan,Gokul Krishna Chenchani,Maren Bennewitz
発行日 2025-03-06 13:56:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | EvidMTL: Evidential Multi-Task Learning for Uncertainty-Aware Semantic Surface Mapping from Monocular RGB Images はコメントを受け付けていません

A Dataset and Benchmark for Shape Completion of Fruits for Agricultural Robotics

要約

世界人口は2050年までに100億に達すると予想されているため、農業部門の人間の労働力の低下にもかかわらず、当社の農業生産システムは生産性を2倍にする必要があります。
自律的なロボットシステムは、フルーツピッキングなどの労働集約的なマニュアルタスクを引き継ぐことにより、生産性を向上させる有望な経路です。
効果的であるためには、そのようなシステムは植物や果物を正確に監視し、相互作用する必要があります。これは、たとえば強い閉塞を引き起こす農業環境の散らかった性質のために挑戦的です。
したがって、閉塞の存在下でオブジェクトの完全な3D形状を推定できることは、果物の収穫などの操作を自動化するために重要です。
この論文では、農業ビジョンシステム向けに最初に公開されている3D形状完了データセットを提案します。
3D形状の果物を推定するためのRGB-Dデータセットを提供します。
具体的には、当社のデータセットには、研究室の条件だけでなく、商業用温室にもRGB-Dフレームが含まれています。
果物ごとに、私たちはさらに、地上の真理として使用する高精度ポイント雲をさらに収集しました。
グラウンドトゥルースの形を取得するために、ラボと温室の両方で高精度で本物のスイートコショウ植物のデータを記録し、感知された果物の形状を決定できる測定プロセスを開発しました。
100を超える異なる果物に属する約7,000のRGB-Dフレームで構成されるデータセットをリリースします。
セグメント化されたRGB-Dフレームを提供します。カメラからの興味深い点雲を簡単に取得し、高精度の高精度レーザースキャナーで取得した対応する高精度のオクルージョンのない点雲とともに簡単に取得します。
さらに、ベンチマークサーバー上の公開課題を介した非表示のテストで形状完了アプローチの評価を有効にします。

要約(オリジナル)

As the world population is expected to reach 10 billion by 2050, our agricultural production system needs to double its productivity despite a decline of human workforce in the agricultural sector. Autonomous robotic systems are one promising pathway to increase productivity by taking over labor-intensive manual tasks like fruit picking. To be effective, such systems need to monitor and interact with plants and fruits precisely, which is challenging due to the cluttered nature of agricultural environments causing, for example, strong occlusions. Thus, being able to estimate the complete 3D shapes of objects in presence of occlusions is crucial for automating operations such as fruit harvesting. In this paper, we propose the first publicly available 3D shape completion dataset for agricultural vision systems. We provide an RGB-D dataset for estimating the 3D shape of fruits. Specifically, our dataset contains RGB-D frames of single sweet peppers in lab conditions but also in a commercial greenhouse. For each fruit, we additionally collected high-precision point clouds that we use as ground truth. For acquiring the ground truth shape, we developed a measuring process that allows us to record data of real sweet pepper plants, both in the lab and in the greenhouse with high precision, and determine the shape of the sensed fruits. We release our dataset, consisting of almost 7,000 RGB-D frames belonging to more than 100 different fruits. We provide segmented RGB-D frames, with camera intrinsics to easily obtain colored point clouds, together with the corresponding high-precision, occlusion-free point clouds obtained with a high-precision laser scanner. We additionally enable evaluation of shape completion approaches on a hidden test set through a public challenge on a benchmark server.

arxiv情報

著者 Federico Magistri,Thomas Läbe,Elias Marks,Sumanth Nagulavancha,Yue Pan,Claus Smitt,Lasse Klingbeil,Michael Halstead,Heiner Kuhlmann,Chris McCool,Jens Behley,Cyrill Stachniss
発行日 2025-03-06 14:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | A Dataset and Benchmark for Shape Completion of Fruits for Agricultural Robotics はコメントを受け付けていません

FRNet: Frustum-Range Networks for Scalable LiDAR Segmentation

要約

LIDARセグメンテーションは、高度な自律運転システムの重要な要素になっています。
最近のレンジビューLIDARセグメンテーションアプローチは、リアルタイム処理の可能性を示しています。
しかし、彼らは必然的に腐敗した文脈情報に苦しみ、予測の洗練のために後処理テクニックに大きく依存しています。
この作業では、対応するフラストムライダーポイントを使用して範囲画像ピクセルのコンテキスト情報を復元することを目的としたシンプルで強力な方法であるFRNETを提案します。
まず、フラストム機能エンコーダーモジュールを使用して、シーンの一貫性を保持し、ポイントレベルの予測に重要なフラストム領域内のポイントごとの特徴を抽出するために使用されます。
次に、フラストムポイント融合モジュールが導入され、ポイントごとの機能が階層的に更新され、各ポイントがフラストム機能を通じてより多くの周囲の情報を抽出できるようにします。
最後に、ヘッドフュージョンモジュールを使用して、最終的なセマンティック予測のためにさまざまなレベルで特徴を融合させます。
さまざまなタスクセットアップの下で4つの人気のあるLidarセグメンテーションベンチマークで実施された広範な実験は、FRNETの優位性を示しています。
特に、FRNETは、SemantickittiおよびNuscenesのテストセットで73.3%および82.5%のMIOUスコアを達成します。
競争力のあるパフォーマンスを達成しながら、FRNETは最先端のアプローチよりも5倍速く運営されています。
このような高効率は、よりスケーラブルなLIDARセグメンテーションのための新しい可能性を開きます。
このコードは、https://github.com/xiangxu-0103/frnetで公開されています。

要約(オリジナル)

LiDAR segmentation has become a crucial component of advanced autonomous driving systems. Recent range-view LiDAR segmentation approaches show promise for real-time processing. However, they inevitably suffer from corrupted contextual information and rely heavily on post-processing techniques for prediction refinement. In this work, we propose FRNet, a simple yet powerful method aimed at restoring the contextual information of range image pixels using corresponding frustum LiDAR points. First, a frustum feature encoder module is used to extract per-point features within the frustum region, which preserves scene consistency and is critical for point-level predictions. Next, a frustum-point fusion module is introduced to update per-point features hierarchically, enabling each point to extract more surrounding information through the frustum features. Finally, a head fusion module is used to fuse features at different levels for final semantic predictions. Extensive experiments conducted on four popular LiDAR segmentation benchmarks under various task setups demonstrate the superiority of FRNet. Notably, FRNet achieves 73.3% and 82.5% mIoU scores on the testing sets of SemanticKITTI and nuScenes. While achieving competitive performance, FRNet operates 5 times faster than state-of-the-art approaches. Such high efficiency opens up new possibilities for more scalable LiDAR segmentation. The code has been made publicly available at https://github.com/Xiangxu-0103/FRNet.

arxiv情報

著者 Xiang Xu,Lingdong Kong,Hui Shuai,Qingshan Liu
発行日 2025-03-06 14:06:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | FRNet: Frustum-Range Networks for Scalable LiDAR Segmentation はコメントを受け付けていません

PALo: Learning Posture-Aware Locomotion for Quadruped Robots

要約

具体化された知性の急速な発展に伴い、複雑な地形での四足ロボットの移動制御が研究ホットスポットになりました。
速度追跡のみに焦点を当てた従来の移動制御アプローチとは異なり、私たちは、多様で複雑な地形の四足ロボットの俊敏性と堅牢性のバランスをとることを追求します。
この目的のために、私たちは、パロという名前の姿勢認識運動のためのエンドツーエンドの深い強化学習フレームワークを提案します。パロは、体の高さ、ピッチ、ロール角の同時線形および角速度追跡とリアルタイム調整を処理することができます。
Paloでは、運動制御の問題は部分的に観察可能なマルコフ決定プロセスとして策定され、SIMからリアルの課題を克服するために、非対称のアクターcriticアーキテクチャが採用されています。
さらに、カスタマイズされたトレーニングカリキュラムを組み込むことにより、Paloはシミュレートされた環境でアジャイルな姿勢を意識した移動制御を達成し、微調整せずに現実世界の設定に成功裏に転送し、四足込まれたロボットの移動と体の姿勢をリアルタイムで制御できるようにします。
詳細な実験分析を通じて、パフォーマンスに寄与するPaloの重要なコンポーネントを特定し、提案された方法の有効性をさらに検証します。
この研究の結果は、高次元のコマンドスペースにある四足ロボットの低レベルの移動制御の新しい可能性を提供し、具体化された知性のための上位レベルモジュールに関する将来の研究の基礎を築きます。

要約(オリジナル)

With the rapid development of embodied intelligence, locomotion control of quadruped robots on complex terrains has become a research hotspot. Unlike traditional locomotion control approaches focusing solely on velocity tracking, we pursue to balance the agility and robustness of quadruped robots on diverse and complex terrains. To this end, we propose an end-to-end deep reinforcement learning framework for posture-aware locomotion named PALo, which manages to handle simultaneous linear and angular velocity tracking and real-time adjustments of body height, pitch, and roll angles. In PALo, the locomotion control problem is formulated as a partially observable Markov decision process, and an asymmetric actor-critic architecture is adopted to overcome the sim-to-real challenge. Further, by incorporating customized training curricula, PALo achieves agile posture-aware locomotion control in simulated environments and successfully transfers to real-world settings without fine-tuning, allowing real-time control of the quadruped robot’s locomotion and body posture across challenging terrains. Through in-depth experimental analysis, we identify the key components of PALo that contribute to its performance, further validating the effectiveness of the proposed method. The results of this study provide new possibilities for the low-level locomotion control of quadruped robots in higher dimensional command spaces and lay the foundation for future research on upper-level modules for embodied intelligence.

arxiv情報

著者 Xiangyu Miao,Jun Sun,Hang Lai,Xinpeng Di,Jiahang Cao,Yong Yu,Weinan Zhang
発行日 2025-03-06 14:13:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | PALo: Learning Posture-Aware Locomotion for Quadruped Robots はコメントを受け付けていません

Pretrained Embeddings as a Behavior Specification Mechanism

要約

物理世界との相互作用のために知覚モデルに依存するシステムの行動特性を正式に指定するアプローチを提案します。
重要なアイデアは、埋め込み – 実世界の概念の数学的表現 – を導入することです。特別な言語のファーストクラスの構造として、特性は理想的な埋め込みと観測された埋め込みの距離で表現されます。
このアプローチを実現するために、埋め込み時間論理(ETL)と呼ばれる新しいタイプの時間論的論理を提案し、以前よりもAI対応システムに関するより広い範囲の特性を表現するために使用する方法を説明します。
基礎モデルによって駆動されるロボットの計画タスクを含む予備評価を通じて、ETLの適用性を実証します。
結果は有望であり、埋め込みベースの仕様を使用して、システムを望ましい動作に向けることができることを示しています。

要約(オリジナル)

We propose an approach to formally specifying the behavioral properties of systems that rely on a perception model for interactions with the physical world. The key idea is to introduce embeddings — mathematical representations of a real-world concept — as a first-class construct in a specification language, where properties are expressed in terms of distances between a pair of ideal and observed embeddings. To realize this approach, we propose a new type of temporal logic called Embedding Temporal Logic (ETL), and describe how it can be used to express a wider range of properties about AI-enabled systems than previously possible. We demonstrate the applicability of ETL through a preliminary evaluation involving planning tasks in robots that are driven by foundation models; the results are promising, showing that embedding-based specifications can be used to steer a system towards desirable behaviors.

arxiv情報

著者 Parv Kapoor,Abigail Hammer,Ashish Kapoor,Karen Leung,Eunsuk Kang
発行日 2025-03-06 14:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SE | Pretrained Embeddings as a Behavior Specification Mechanism はコメントを受け付けていません