Neural-Augmented Incremental Nonlinear Dynamic Inversion for Quadrotors with Payload Adaptation

要約

マルチローターアプリケーションの複雑さの増加により、ロボットに作用するすべての力を確実に予測できる、より正確なフライトコントローラーが必要になりました。
従来のフライトコントローラーは、力の大部分をモデル化しますが、いわゆる残留力を考慮しないでください。
この理由は、残差力を正確に計算することが計算上高価である可能性があることです。
インクリメンタル非線形動的反転(INDI)は、これらの残留力を推定するために、異なるセンサー測定値間の違いを計算する方法です。
INDIの主な問題は、非常に騒がしい特別なセンサー測定に依存していることです。
また、最近の研究では、学習ベースの方法を使用して残留力を予測できることも示されています。
この作業では、学習アルゴリズムが追加のセンサー測定を必要とせずに、よりスムーズなバージョンのINDI出力を予測できることを実証します。
さらに、学習ベースの予測とINDIを組み合わせた新しい方法を紹介します。
また、2つのアプローチを適応させて、スラングタイプのペイロードを運ぶ四角体で作業します。
結果は、ニューラルネットワークを使用して残留力を予測することで、ニューラルネットワークとインディの組み合わせを使用すると、各方法よりもさらに良い結果が得られる可能性があることを示しています。

要約(オリジナル)

The increasing complexity of multirotor applications has led to the need of more accurate flight controllers that can reliably predict all forces acting on the robot. Traditional flight controllers model a large part of the forces but do not take so called residual forces into account. A reason for this is that accurately computing the residual forces can be computationally expensive. Incremental Nonlinear Dynamic Inversion (INDI) is a method that computes the difference between different sensor measurements in order to estimate these residual forces. The main issue with INDI is it’s reliance on special sensor measurements which can be very noisy. Recent work has also shown that residual forces can be predicted using learning-based methods. In this work, we demonstrate that a learning algorithm can predict a smoother version of INDI outputs without requiring additional sensor measurements. In addition, we introduce a new method that combines learning based predictions with INDI. We also adapt the two approaches to work on quadrotors carrying a slung-type payload. The results show that using a neural network to predict residual forces can outperform INDI while using the combination of neural network and INDI can yield even better results than each method individually.

arxiv情報

著者 Eckart Cobo-Briesewitz,Khaled Wahba,Wolfgang Hönig
発行日 2025-03-12 14:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Neural-Augmented Incremental Nonlinear Dynamic Inversion for Quadrotors with Payload Adaptation はコメントを受け付けていません

EHC-MM: Embodied Holistic Control for Mobile Manipulation

要約

モバイル操作は通常、モビリティのベース、正確な操作のためのアーム、および知覚のためのカメラを必要とします。
遠いモビリティ、緊密な把握(DMCG)の原則は、全体的なコントロールに不可欠です。
SIG(W)の具体化された関数を使用して、モバイル操作(EHC-MM)の具体化されたホリスティックコントロールを提案します。DMCG原理を二次プログラミング(QP)問題として策定することにより、SIG(W)は、ロボットの状態と環境の考慮とのロボットの動きと操作の強調の動きとのバランスをとります。
さらに、SIG(W)を使用したモニターポジションベースのサーボ(MPBS)を提案し、操作中にターゲットの追跡を可能にします。
このアプローチにより、ロボットのベース、アーム、カメラ間の調整された制御が可能になり、タスク効率が向上します。
大規模なシミュレーションと現実世界の実験を通じて、私たちのアプローチにより、モバイル操作タスクの成功率と効率の両方が大幅に向上し、現実世界のシナリオで95.6%の成功率と時間効率が52.8%増加します。

要約(オリジナル)

Mobile manipulation typically entails the base for mobility, the arm for accurate manipulation, and the camera for perception. The principle of Distant Mobility, Close Grasping(DMCG) is essential for holistic control. We propose Embodied Holistic Control for Mobile Manipulation(EHC-MM) with the embodied function of sig(w): By formulating the DMCG principle as a Quadratic Programming (QP) problem, sig(w) dynamically balances the robot’s emphasis between movement and manipulation with the consideration of the robot’s state and environment. In addition, we propose the Monitor-Position-Based Servoing (MPBS) with sig(w), enabling the tracking of the target during the operation. This approach enables coordinated control among the robot’s base, arm, and camera, enhancing task efficiency. Through extensive simulations and real-world experiments, our approach significantly improves both the success rate and efficiency of mobile manipulation tasks, achieving a 95.6% success rate in real-world scenarios and a 52.8% increase in time efficiency.

arxiv情報

著者 Jiawen Wang,Yixiang Jin,Jun Shi,Yong A,Dingzhe Li,Fuchun Sun,Dingsheng Luo,Bin Fang
発行日 2025-03-12 14:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | EHC-MM: Embodied Holistic Control for Mobile Manipulation はコメントを受け付けていません

ReloPush: Multi-object Rearrangement in Confined Spaces with a Nonholonomic Mobile Robot Pusher

要約

非致死的に制約されたモバイルロボットを使用したプッシュベースのマルチオブジェクト再配置計画に焦点を当てています。
同時幾何学、運動学、および物理学の制約により、この問題は特に困難になります。
再配置計画に関する以前の作業は、しばしば、器用なハードウェア、プレヘンシル操作、またはまばらに占有されているワークスペースを仮定することにより、これらの制約の一部を緩和します。
私たちの重要な洞察は、これらの制約を統一された表現にキャプチャすることにより、環境を有利に変更することにより、抑制されたロボットに困難な問題インスタンスに取り組むことができるということです。
この目的のために、プッシュトラバース性グラフを導入します。その頂点は、ロボットがオブジェクトからプッシュできるポーズを表し、エッジはそれらの間の最適で運動的に実行可能で、安定した遷移を表します。
このグラフに基づいて、複雑なマルチオブジェクト再配置タスクを入力し、それを単一オブジェクトプッシュタスクのシーケンスに分割するグラフベースの計画フレームワークであるRelopushを開発します。
1/10スケールのロボットレースカーを使用して、最大9つのオブジェクトを備えた密集したワークスペースの再配置を含む、一連の挑戦的なシナリオ全体でリロップラッシュを評価します。
ReLopushは、提案されたグラフ構造を欠いている2つのベースラインと比較して、実行時間の低下とオブジェクト接触の損失の減少で証明された、現実の世界では、数桁の速度が速くなり、大幅に堅牢な実行を示します。

要約(オリジナル)

We focus on push-based multi-object rearrangement planning using a nonholonomically constrained mobile robot. The simultaneous geometric, kinematic, and physics constraints make this problem especially challenging. Prior work on rearrangement planning often relaxes some of these constraints by assuming dexterous hardware, prehensile manipulation, or sparsely occupied workspaces. Our key insight is that by capturing these constraints into a unified representation, we could empower a constrained robot to tackle difficult problem instances by modifying the environment in its favor. To this end, we introduce a Push-Traversability graph, whose vertices represent poses that the robot can push objects from, and edges represent optimal, kinematically feasible, and stable transitions between them. Based on this graph, we develop ReloPush, a graph-based planning framework that takes as input a complex multi-object rearrangement task and breaks it down into a sequence of single-object pushing tasks. We evaluate ReloPush across a series of challenging scenarios, involving the rearrangement of densely cluttered workspaces with up to nine objects, using a 1/10-scale robot racecar. ReloPush exhibits orders of magnitude faster runtimes and significantly more robust execution in the real world, evidenced in lower execution times and fewer losses of object contact, compared to two baselines lacking our proposed graph structure.

arxiv情報

著者 Jeeho Ahn,Christoforos Mavrogiannis
発行日 2025-03-12 16:15:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ReloPush: Multi-object Rearrangement in Confined Spaces with a Nonholonomic Mobile Robot Pusher はコメントを受け付けていません

Action-Aware Pro-Active Safe Exploration for Mobile Robot Mapping

要約

不明な環境の安全な自律調査は、モバイルロボットが多様な重要なタスクのために環境マッピングを効果的かつ適応的に実行するための不可欠なスキルです。
そのシンプルさのため、ほとんどの既存の探査方法は、標準的なフロンティアベースの探査戦略に依存しており、環境に関する新しい情報を取得するために、既知の安全性と未知の未開の空間の境界をロボットに指示します。
これは通常、再発した永続的な計画戦略に従い、最初に有益なフロンティアの視点を選択し、次にロボットを選択した視点に到達するまで移動し、終了するまでこれらのステップを繰り返します。
ただし、持続的な計画を使用した探索は、継続的に更新されたマップへの適応性が欠けている可能性がありますが、オンライン計画での高度に適応的な探索は、多くの場合、高度な計算コストとリベロックに関する潜在的な問題に苦しんでいます。
この論文では、適応性の低い永続的な計画と費用のかかるオンライン計画の代替として、冗長で情報のないラストマイル探索モーションを避けるために、すぐに利用可能な実用的な情報を使用して、効果的な調査のための新しい予防的な再生戦略を紹介します。
また、視点の実用的な情報を、探索のための体系的な終了基準として使用します。
知覚と行動のギャップを埋めるために、検出された障害物との衝突のリスクと未開の地域までの距離を最小限に抑える安全で有益なパス計画を実行し、総ナビゲーションコストごとに最大の情報ユーティリティを備えたアクションアウェアの視点選択を適用します。
数値シミュレーションとハードウェア実験におけるアクションを意識するプロアクティブ探索方法の有効性を実証します。

要約(オリジナル)

Safe autonomous exploration of unknown environments is an essential skill for mobile robots to effectively and adaptively perform environmental mapping for diverse critical tasks. Due to its simplicity, most existing exploration methods rely on the standard frontier-based exploration strategy, which directs a robot to the boundary between the known safe and the unknown unexplored spaces to acquire new information about the environment. This typically follows a recurrent persistent planning strategy, first selecting an informative frontier viewpoint, then moving the robot toward the selected viewpoint until reaching it, and repeating these steps until termination. However, exploration with persistent planning may lack adaptivity to continuously updated maps, whereas highly adaptive exploration with online planning often suffers from high computational costs and potential issues with livelocks. In this paper, as an alternative to less-adaptive persistent planning and costly online planning, we introduce a new proactive preventive replanning strategy for effective exploration using the immediately available actionable information at a viewpoint to avoid redundant, uninformative last-mile exploration motion. We also use the actionable information of a viewpoint as a systematic termination criterion for exploration. To close the gap between perception and action, we perform safe and informative path planning that minimizes the risk of collision with detected obstacles and the distance to unexplored regions, and we apply action-aware viewpoint selection with maximal information utility per total navigation cost. We demonstrate the effectiveness of our action-aware proactive exploration method in numerical simulations and hardware experiments.

arxiv情報

著者 Aykut İşleyen,René van de Molengraft,Ömür Arslan
発行日 2025-03-12 16:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.RO, I.2.9 | Action-Aware Pro-Active Safe Exploration for Mobile Robot Mapping はコメントを受け付けていません

DeepUKF-VIN: Adaptively-tuned Deep Unscented Kalman Filter for 3D Visual-Inertial Navigation based on IMU-Vision-Net

要約

このペーパーでは、6つの自由度(6-DOF)で3次元(3D)空間で動作する車両の方向、位置、および速度を推定するという課題に対処します。
深い学習ベースの適応メカニズム(DLAM)は、IMU-Vision-netを活用して、視覚型ナビゲーション(VIN)問題のカルマン型フィルターのノイズ共分散マトリックスを適応的に調整するために提案されています。
その後、3D VIN(DeepUKF-VIN)用の適応的に調整された深い学習の無濃縮カルマンフィルターが導入され、提案されたDLAMを利用して、方向、位置、線形速度などの主要なナビゲーションコンポーネントを堅牢に推定します。
提案されたDeepUKF-Vinは、オンボードセンサー、特にカメラから抽出された慣性測定ユニット(IMU)と視覚的特徴ポイントからのデータを統合し、GPS除去ナビゲーションに適用できます。
Quaternionベースの設計は、ナビゲーションの非線形性を効果的にキャプチャし、Euler-Angleベースのフィルターで一般的に遭遇する特異性を回避します。
Deepukf-Vinは、個別のスペースに実装されており、実用的なフィルター展開を促進します。
フィルターのパフォーマンスは、IMUから収集された実際のデータと、低サンプリングレートでステレオカメラを使用して評価されます。
結果は、フィルターの安定性と推定エラーの急速な減衰を示しており、その高い推定精度を強調しています。
さらに、2つのシナリオでの標準の無香性Kalmanフィルター(UKF)に対する比較テストは、すべてのナビゲーションコンポーネントにわたって一貫して優れたパフォーマンスを示し、それによって提案されたDeepUKF-Vinの有効性と堅牢性を検証します。
キーワード:ディープラーニング、無香料のカルマンフィルター、適応チューニング、推定、ナビゲーション、無人航空機、センサー融合。

要約(オリジナル)

This paper addresses the challenge of estimating the orientation, position, and velocity of a vehicle operating in three-dimensional (3D) space with six degrees of freedom (6-DoF). A Deep Learning-based Adaptation Mechanism (DLAM) is proposed to adaptively tune the noise covariance matrices of Kalman-type filters for the Visual-Inertial Navigation (VIN) problem, leveraging IMU-Vision-Net. Subsequently, an adaptively tuned Deep Learning Unscented Kalman Filter for 3D VIN (DeepUKF-VIN) is introduced to utilize the proposed DLAM, thereby robustly estimating key navigation components, including orientation, position, and linear velocity. The proposed DeepUKF-VIN integrates data from onboard sensors, specifically an inertial measurement unit (IMU) and visual feature points extracted from a camera, and is applicable for GPS-denied navigation. Its quaternion-based design effectively captures navigation nonlinearities and avoids the singularities commonly encountered with Euler-angle-based filters. Implemented in discrete space, the DeepUKF-VIN facilitates practical filter deployment. The filter’s performance is evaluated using real-world data collected from an IMU and a stereo camera at low sampling rates. The results demonstrate filter stability and rapid attenuation of estimation errors, highlighting its high estimation accuracy. Furthermore, comparative testing against the standard Unscented Kalman Filter (UKF) in two scenarios consistently shows superior performance across all navigation components, thereby validating the efficacy and robustness of the proposed DeepUKF-VIN. Keywords: Deep Learning, Unscented Kalman Filter, Adaptive tuning, Estimation, Navigation, Unmanned Aerial Vehicle, Sensor-fusion.

arxiv情報

著者 Khashayar Ghanizadegan,Hashim A. Hashim
発行日 2025-03-12 17:21:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | DeepUKF-VIN: Adaptively-tuned Deep Unscented Kalman Filter for 3D Visual-Inertial Navigation based on IMU-Vision-Net はコメントを受け付けていません

Mitigating Membership Inference Vulnerability in Personalized Federated Learning

要約

Federated Learning(FL)は、クライアントの個人データを共有する必要なく、共同モデルトレーニングの有望なパラダイムとして浮上しており、それによってプライバシーを維持しています。
ただし、クライアントのデータの非IID性は、FLに大きな課題をもたらし、パーソナライズされたフェデレーション学習(PFL)方法の重要性を強調しています。
PFLでは、人口データに存在する特定の特徴分布に対応するようにモデルが訓練されています。
PFLの顕著な方法は、クライアントを同様のデータ分布とグループ化することにより、非IID性に関連する懸念を軽減する反復的なフェデレーションクラスタリングアルゴリズム(IFCA)です。
IFCAは精度と公平性の両方を向上させることが示されていますが、人口をより小さなクラスターに分割する戦略は、特にトレーニングサンプルが限られている少数派のメンバーシップ推論攻撃(MIA)に対する脆弱性を高めます。
この論文では、MIAリスク評価をクラスタリングプロセスに統合するIFCAの改良バージョンであるIFCA-MIRを紹介します。
モデルのパフォーマンスとMIAの脆弱性の両方に基づいてクライアントがクラスターを選択できるようにすると、IFCA-MIRは、正確性、公平性、プライバシーに関してパフォーマンスの向上を実現します。
IFCA-MIRは、元のIFCAとして同等のモデルの精度と公平性を維持しながら、MIAリスクを大幅に減らすことを実証します。

要約(オリジナル)

Federated Learning (FL) has emerged as a promising paradigm for collaborative model training without the need to share clients’ personal data, thereby preserving privacy. However, the non-IID nature of the clients’ data introduces major challenges for FL, highlighting the importance of personalized federated learning (PFL) methods. In PFL, models are trained to cater to specific feature distributions present in the population data. A notable method for PFL is the Iterative Federated Clustering Algorithm (IFCA), which mitigates the concerns associated with the non-IID-ness by grouping clients with similar data distributions. While it has been shown that IFCA enhances both accuracy and fairness, its strategy of dividing the population into smaller clusters increases vulnerability to Membership Inference Attacks (MIA), particularly among minorities with limited training samples. In this paper, we introduce IFCA-MIR, an improved version of IFCA that integrates MIA risk assessment into the clustering process. Allowing clients to select clusters based on both model performance and MIA vulnerability, IFCA-MIR achieves an improved performance with respect to accuracy, fairness, and privacy. We demonstrate that IFCA-MIR significantly reduces MIA risk while maintaining comparable model accuracy and fairness as the original IFCA.

arxiv情報

著者 Kangsoo Jung,Sayan Biswas,Catuscia Palamidessi
発行日 2025-03-12 14:10:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Mitigating Membership Inference Vulnerability in Personalized Federated Learning はコメントを受け付けていません

Efficient dynamic modal load reconstruction using physics-informed Gaussian processes based on frequency-sparse Fourier basis functions

要約

構造の力の時間履歴に関する知識は、その行動を評価し、安全性を確保し、信頼性を維持するために不可欠です。
ただし、センサーの制限、不明な力の特性、またはアクセスできない負荷ポイントにより、外力の直接測定はしばしば困難です。
このホワイトペーパーでは、周波数スパーフーリエ基底関数に基づいた物理学に基づいたガウスプロセス(GP)を使用した効率的な動的負荷再構成方法を紹介します。
GPの共分散行列は、システムダイナミクスの説明を使用して構築され、モデルは構造応答測定を使用してトレーニングされます。
これにより、純粋にデータ駆動型の方法とは対照的に、機械学習モデルのサポートと解釈可能性が提供されます。
さらに、このモデルは、周波数領域の構造応答のスパース性を活用することにより、フーリエ基底関数の無関係なコンポーネントを除外し、それにより最適化中の計算の複雑さを減らします。
構造応答の訓練されたモデルは、高調波発振器の微分方程式と統合され、トレーニング中に力データを必要とせずに負荷パターンを予測する確率的動的負荷モデルを作成します。
モデルの有効性は、2つのケーススタディを通じて検証されています。風変わりな76階建ての建物の数値モデルと、デンマークのLILLEB {\ ae} ltブリッジの物理スケールモデルを使用した実験、サーボモーターに励まします。
どちらの場合も、再構築された力の検証が、いくつかの信号特性の比較メトリックを使用して提供されます。
開発されたモデルは、構造的健康監視、損傷予後、および負荷モデルの検証におけるアプリケーションの可能性を秘めています。

要約(オリジナル)

Knowledge of the force time history of a structure is essential to assess its behaviour, ensure safety and maintain reliability. However, direct measurement of external forces is often challenging due to sensor limitations, unknown force characteristics, or inaccessible load points. This paper presents an efficient dynamic load reconstruction method using physics-informed Gaussian processes (GP) based on frequency-sparse Fourier basis functions. The GP’s covariance matrices are built using the description of the system dynamics, and the model is trained using structural response measurements. This provides support and interpretability to the machine learning model, in contrast to purely data-driven methods. In addition, the model filters out irrelevant components in the Fourier basis function by leveraging the sparsity of structural responses in the frequency domain, thereby reducing computational complexity during optimization. The trained model for structural responses is then integrated with the differential equation for a harmonic oscillator, creating a probabilistic dynamic load model that predicts load patterns without requiring force data during training. The model’s effectiveness is validated through two case studies: a numerical model of a wind-excited 76-story building and an experiment using a physical scale model of the Lilleb{\ae}lt Bridge in Denmark, excited by a servo motor. For both cases, validation of the reconstructed forces is provided using comparison metrics for several signal properties. The developed model holds potential for applications in structural health monitoring, damage prognosis, and load model validation.

arxiv情報

著者 Gledson Rodrigo Tondo,Igor Kavrakov,Guido Morgenthal
発行日 2025-03-12 14:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Efficient dynamic modal load reconstruction using physics-informed Gaussian processes based on frequency-sparse Fourier basis functions はコメントを受け付けていません

Provable Imbalanced Point Clustering

要約

不均衡なポイントクラスタリングの近似を計算するための効率的で証明可能な方法、つまり$ \ mathbb {r}^d $のポイントのセットに$ k $ centersを適合させることをお勧めします。
この目的のために、私たちは\ emph {coresets}を利用します。これは、論文のコンテキストでは、特定のセットのすべてのモデルのフィッティング損失を近似する$ \ mathbb {r}^d $の基本的に重み付けされたポイントセットであり、$ 1 \ pm \ varepsilon $の乗算係数に近似します。
[付録のセクション3とセクションE]実験を提供します。これは、実際の画像(新規および参照)、合成データ、および実際のデータのための提案された方法の経験的貢献を示しています。
また、Choice Clusteringを提案します。これは、クラスタリングアルゴリズムを組み合わせることで、それぞれよりもパフォーマンスが向上します。

要約(オリジナル)

We suggest efficient and provable methods to compute an approximation for imbalanced point clustering, that is, fitting $k$-centers to a set of points in $\mathbb{R}^d$, for any $d,k\geq 1$. To this end, we utilize \emph{coresets}, which, in the context of the paper, are essentially weighted sets of points in $\mathbb{R}^d$ that approximate the fitting loss for every model in a given set, up to a multiplicative factor of $1\pm\varepsilon$. We provide [Section 3 and Section E in the appendix] experiments that show the empirical contribution of our suggested methods for real images (novel and reference), synthetic data, and real-world data. We also propose choice clustering, which by combining clustering algorithms yields better performance than each one separately.

arxiv情報

著者 David Denisov,Dan Feldman,Shlomi Dolev,Michael Segal
発行日 2025-03-12 14:18:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Provable Imbalanced Point Clustering はコメントを受け付けていません

Measuring memorization in language models via probabilistic extraction

要約

大規模な言語モデル(LLM)は、トレーニングデータを記憶しやすく、世代の機密情報の潜在的な抽出に関する懸念を高めています。
発見可能な抽出は、この問題を測定するための最も一般的な方法です。トレーニングの例を接頭辞と接尾辞に分割し、プレフィックスでLLMを促し、LLMが貪欲なサンプリングを使用して一致する接尾辞を生成する場合に抽出可能な例を見なします。
この定義により、単一のクエリに関して抽出が成功したかどうかのYES-またはNOの決定が得られます。
計算するのは効率的ですが、この定義は、LLMが同じプロンプトの範囲の出力を生成するより現実的な(ゼロ以外の)サンプリングスキームに存在する非決定的主義を考慮していないため、信頼できないことを示します。
確率的発見可能な抽出を導入します。これは、追加のコストなしで、ターゲットシーケンスを抽出する確率を定量化するために複数のクエリを検討することにより、発見可能な抽出を緩和します。
さまざまなモデル、サンプリングスキーム、およびトレーニングデータの繰り返しにわたる確率論的尺度を評価し、この測定値が、従来の発見可能な抽出と比較して抽出リスクに関するより微妙な情報を提供することを発見します。

要約(オリジナル)

Large language models (LLMs) are susceptible to memorizing training data, raising concerns about the potential extraction of sensitive information at generation time. Discoverable extraction is the most common method for measuring this issue: split a training example into a prefix and suffix, then prompt the LLM with the prefix, and deem the example extractable if the LLM generates the matching suffix using greedy sampling. This definition yields a yes-or-no determination of whether extraction was successful with respect to a single query. Though efficient to compute, we show that this definition is unreliable because it does not account for non-determinism present in more realistic (non-greedy) sampling schemes, for which LLMs produce a range of outputs for the same prompt. We introduce probabilistic discoverable extraction, which, without additional cost, relaxes discoverable extraction by considering multiple queries to quantify the probability of extracting a target sequence. We evaluate our probabilistic measure across different models, sampling schemes, and training-data repetitions, and find that this measure provides more nuanced information about extraction risk compared to traditional discoverable extraction.

arxiv情報

著者 Jamie Hayes,Marika Swanberg,Harsh Chaudhari,Itay Yona,Ilia Shumailov,Milad Nasr,Christopher A. Choquette-Choo,Katherine Lee,A. Feder Cooper
発行日 2025-03-12 14:25:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Measuring memorization in language models via probabilistic extraction はコメントを受け付けていません

Convex Is Back: Solving Belief MDPs With Convexity-Informed Deep Reinforcement Learning

要約

ディープ補強学習(DRL)のための新しい方法を提示し、部分的に観察可能なマルコフ決定プロセス(POMDP)の信念空間に値関数の凸特性を組み込みます。
ハードおよびソフト強化の凸性を2つの異なるアプローチとして導入し、2つのよく知られているPOMDP環境、つまりTigerとFieldVisionRocksampleの問題で標準DRLとそのパフォーマンスを比較します。
我々の調査結果は、凸機能を含めると、特に分散型ドメインでテストする場合、エージェントのパフォーマンスを大幅に向上させるとともに、ハイパーパラメーター空間に対する堅牢性を高めることができることを示しています。
この作業のソースコードは、https://github.com/dakout/convex_drlにあります。

要約(オリジナル)

We present a novel method for Deep Reinforcement Learning (DRL), incorporating the convex property of the value function over the belief space in Partially Observable Markov Decision Processes (POMDPs). We introduce hard- and soft-enforced convexity as two different approaches, and compare their performance against standard DRL on two well-known POMDP environments, namely the Tiger and FieldVisionRockSample problems. Our findings show that including the convexity feature can substantially increase performance of the agents, as well as increase robustness over the hyperparameter space, especially when testing on out-of-distribution domains. The source code for this work can be found at https://github.com/Dakout/Convex_DRL.

arxiv情報

著者 Daniel Koutas,Daniel Hettegger,Kostas G. Papakonstantinou,Daniel Straub
発行日 2025-03-12 14:53:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Convex Is Back: Solving Belief MDPs With Convexity-Informed Deep Reinforcement Learning はコメントを受け付けていません