From Simple to Complex: Knowledge Transfer in Safe and Efficient Reinforcement Learning for Autonomous Driving

要約

自動運転車には、安全で効率的な意思決定システムが不可欠です。
ただし、運転環境の複雑さにより、多くのルールベースおよび機械学習ベースの意思決定アプローチの有効性が制限されます。
自動運転における強化学習の導入は、これらの課題に対する有望な解決策を提示しますが、トレーニング中の安全性と効率性に関する懸念が、その広範な適用にとって依然として大きな障害となっています。
これらの懸念に対処するために、私たちは Simple to Complex Collaborative Decision という名前の新しいフレームワークを提案します。
まず、軽量の自動運転シミュレーション環境で近接ポリシー最適化アルゴリズムを使用して教師モデルを迅速にトレーニングします。
より複雑なシミュレーション環境では、学生エージェントが次善の行動を示したときに、危険な状況を回避するための行動の価値を評価することによって教師モデルが介入します。
次に、適応クリッピング近接ポリシー最適化と呼ばれる革新的なアルゴリズムを開発しました。
教師と生徒の両方のポリシーによって生成されたサンプルの組み合わせを使用してトレーニングし、サンプルの重要性に基づいて動的なクリッピング戦略を適用することで、アルゴリズムがさまざまなソースからのサンプルをより効率的に利用できるようにします。
さらに、学生エージェントによる教師のポリシーの迅速な学習を促進するために、教師と生徒のポリシー間の KL の相違をポリシー最適化の制約として採用します。
最後に、教師の介入を徐々に減らす適切なウィーニング戦略を採用することで、トレーニングの後期段階でスチューデント エージェントが独立して環境を完全に探索できるようになります。
高速道路の車線変更シナリオにおけるシミュレーション実験では、ベースラインアルゴリズムと比較して、私たちが提案したフレームワークが学習効率を向上させ、トレーニングコストを削減するだけでなく、トレーニング中の安全性も大幅に強化することを実証しました。

要約(オリジナル)

A safe and efficient decision-making system is crucial for autonomous vehicles. However, the complexity of driving environments limit the effectiveness of many rule-based and machine learning-based decision-making approaches. The introduction of Reinforcement Learning in autonomous driving presents a promising solution to these challenges, although concerns about safety and efficiency during training remain major obstacles to its widespread application. To address these concerns, we propose a novel framework named Simple to Complex Collaborative Decision. First, we rapidly train the teacher model using the Proximal Policy Optimization algorithm in a lightweight autonomous driving simulation environment. In the more complex simulation environment, the teacher model intervenes when the student agent exhibits sub-optimal behavior by assessing the value of actions to avert dangerous situations. Next, we developed an innovative algorithm called Adaptive Clipping Proximal Policy Optimization. It trains using a combination of samples generated by both the teacher and student policies and applies dynamic clipping strategies based on sample importance, enabling the algorithm to utilize samples from diverse sources more efficiently. Additionally, we employ the KL divergence between the teacher’s and student’s policies as a constraint for policy optimization to facilitate the student agent’s rapid learning of the teacher’s policy. Finally, by adopting an appropriate weaning strategy to gradually reduce teacher intervention, we ensure that the student agent can fully explore the environment independently during the later stages of training. Simulation experiments in highway lane-change scenarios demonstrate that, compared to baseline algorithms, our proposed framework not only improves learning efficiency and reduces training costs but also significantly enhances safety during training.

arxiv情報

著者 Rongliang Zhou,Jiakun Huang,Mingjun Li,Hepeng Li,Haotian Cao,Xiaolin Song
発行日 2024-10-18 13:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | From Simple to Complex: Knowledge Transfer in Safe and Efficient Reinforcement Learning for Autonomous Driving はコメントを受け付けていません

Text2Interaction: Establishing Safe and Preferable Human-Robot Interaction

要約

ロボットの動作を人間の好みに合わせて調整するには、人間による集中的なフィードバックが必要となり、新しいユーザーや状況の変化にすぐに適応できなくなる可能性があります。
さらに、現在のアプローチは通常、ユーザーの好みを報酬として扱うため、タスクの成功とユーザーの満足度の間で手動のバランスをとる必要があります。
新しいユーザー設定をゼロショット方式で統合するために、私たちが提案する Text2Interaction フレームワークは、大規模な言語モデルを呼び出して、タスク プラン、Python コードとしてのモーション設定、および安全コントローラーのパラメーターを生成します。
報酬の加重合計ではなく、タスクの完了とユーザーの満足度を組み合わせた確率を最大化することで、両方の要件を満たすプランを確実に見つけることができます。
Text2Interaction を使用しているユーザーの 83 % が、Text2Interaction が自分の好みをロボットの計画に統合していることに同意し、94 % がベースラインより Text2Interaction を好むことがわかりました。
私たちのアブレーション研究では、Text2Interaction が他のベースラインよりも目に見えない好みとよりよく一致し、高い成功率を維持していることが示されています。
実際のデモとコードは、sites.google.com/view/text2interaction で入手できます。

要約(オリジナル)

Adjusting robot behavior to human preferences can require intensive human feedback, preventing quick adaptation to new users and changing circumstances. Moreover, current approaches typically treat user preferences as a reward, which requires a manual balance between task success and user satisfaction. To integrate new user preferences in a zero-shot manner, our proposed Text2Interaction framework invokes large language models to generate a task plan, motion preferences as Python code, and parameters of a safety controller. By maximizing the combined probability of task completion and user satisfaction instead of a weighted sum of rewards, we can reliably find plans that fulfill both requirements. We find that 83 % of users working with Text2Interaction agree that it integrates their preferences into the plan of the robot, and 94 % prefer Text2Interaction over the baseline. Our ablation study shows that Text2Interaction aligns better with unseen preferences than other baselines while maintaining a high success rate. Real-world demonstrations and code are made available at sites.google.com/view/text2interaction.

arxiv情報

著者 Jakob Thumm,Christopher Agia,Marco Pavone,Matthias Althoff
発行日 2024-10-18 14:02:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Text2Interaction: Establishing Safe and Preferable Human-Robot Interaction はコメントを受け付けていません

Domain Adaptive Safety Filters via Deep Operator Learning

要約

コントロールバリア機能(CBF)を構築するための学習ベースのアプローチは、セーフティクリティカルな制御システム向けにますます検討されています。
ただし、これらの方法は通常、目に見えない環境に適用する場合は完全な再トレーニングが必要となり、適応性が制限されます。
これに対処するために、CBF を直接学習するのではなく、環境パラメーターから対応する CBF へのマッピングを学習する、自己教師ありの深いオペレーター学習フレームワークを提案します。
私たちのアプローチはパラメトリック偏微分方程式 (PDE) の残差を活用しており、解は最大制御不変量集合を近似するパラメトリック CBF を定義します。
このフレームワークは、複雑な安全制約、より高い相対度、および作動制限に対応します。
動的障害物を伴うナビゲーションタスクに関する数値実験を通じて、この方法の有効性を実証します。

要約(オリジナル)

Learning-based approaches for constructing Control Barrier Functions (CBFs) are increasingly being explored for safety-critical control systems. However, these methods typically require complete retraining when applied to unseen environments, limiting their adaptability. To address this, we propose a self-supervised deep operator learning framework that learns the mapping from environmental parameters to the corresponding CBF, rather than learning the CBF directly. Our approach leverages the residual of a parametric Partial Differential Equation (PDE), where the solution defines a parametric CBF approximating the maximal control invariant set. This framework accommodates complex safety constraints, higher relative degrees, and actuation limits. We demonstrate the effectiveness of the method through numerical experiments on navigation tasks involving dynamic obstacles.

arxiv情報

著者 Lakshmideepakreddy Manda,Shaoru Chen,Mahyar Fazlyab
発行日 2024-10-18 15:10:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Domain Adaptive Safety Filters via Deep Operator Learning はコメントを受け付けていません

Graph Optimality-Aware Stochastic LiDAR Bundle Adjustment with Progressive Spatial Smoothing

要約

センサーの向きと点群の精度を同時に調整する大規模な LiDAR バンドル調整 (LBA) は、特に複雑なシーンでの 3D マッピングに低コストの 3D センサーの使用が増えているため、写真測量とロボット工学の基本的なタスクです。
LiDAR フレーム間のペア関係のみに依存する姿勢グラフベースの方法とは異なり、LBA は生の LiDAR 対応を利用して、特に低コストセンサーの初期姿勢推定が信頼できない場合に、より正確な結果を実現します。
ただし、既存の LBA 手法は、単純な平面対応、広範な観測、最小二乗問題における密な正規行列などの課題に直面しており、堅牢性、効率、スケーラビリティが制限されています。
これらの問題に対処するために、\textit{robust}、\textit{efficient}、\textit{scalable} LBA を達成するために、Progressive Spatial Smoothing を備えたグラフ最適性を意識した確率的最適化スキーム、つまり PSS-GOSO を提案します。
Progressive Spatial Smoothing (PSS) モジュールは、多項式スムーズ カーネルによって取得された以前の構造情報を利用して \textit{robust} LiDAR 機能の関連付けを抽出します。
Graph Optimality-aware Stochastic Optimization (GOSO) モジュールは、まず \textit{efficient} 最適化の最適性に応じてグラフをスパース化します。
次に、GOSO は確率的クラスタリングとグラフ周辺化を利用して、\textit{scalable} LBA の大規模な状態推定問題を解決します。
さまざまなプラットフォームでキャプチャされたさまざまなシーンにわたって PSS-GOSO を検証し、既存の方法と比較してその優れたパフォーマンスを実証します。

要約(オリジナル)

Large-scale LiDAR Bundle Adjustment (LBA) for refining sensor orientation and point cloud accuracy simultaneously is a fundamental task in photogrammetry and robotics, particularly as low-cost 3D sensors are increasingly used for 3D mapping in complex scenes. Unlike pose-graph-based methods that rely solely on pairwise relationships between LiDAR frames, LBA leverages raw LiDAR correspondences to achieve more precise results, especially when initial pose estimates are unreliable for low-cost sensors. However, existing LBA methods face challenges such as simplistic planar correspondences, extensive observations, and dense normal matrices in the least-squares problem, which limit robustness, efficiency, and scalability. To address these issues, we propose a Graph Optimality-aware Stochastic Optimization scheme with Progressive Spatial Smoothing, namely PSS-GOSO, to achieve \textit{robust}, \textit{efficient}, and \textit{scalable} LBA. The Progressive Spatial Smoothing (PSS) module extracts \textit{robust} LiDAR feature association exploiting the prior structure information obtained by the polynomial smooth kernel. The Graph Optimality-aware Stochastic Optimization (GOSO) module first sparsifies the graph according to optimality for an \textit{efficient} optimization. GOSO then utilizes stochastic clustering and graph marginalization to solve the large-scale state estimation problem for a \textit{scalable} LBA. We validate PSS-GOSO across diverse scenes captured by various platforms, demonstrating its superior performance compared to existing methods.

arxiv情報

著者 Jianping Li,Thien-Minh Nguyen,Muqing Cao,Shenghai Yuan,Tzu-Yi Hung,Lihua Xie
発行日 2024-10-18 16:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Graph Optimality-Aware Stochastic LiDAR Bundle Adjustment with Progressive Spatial Smoothing はコメントを受け付けていません

Reimagining partial thickness keratoplasty: An eye mountable robot for autonomous big bubble needle insertion

要約

自律型手術ロボットは、個々の外科医の経験に関係なく、手術結果を標準化し、安全性と一貫性を向上させるイノベーションを推進する大きな可能性を実証しています。
深部前層板角膜移植術(DALK)は、デスメ膜(DM)上の角膜前部を置換することを目的とした部分的厚さ角膜移植手術であり、穿孔率が高く外科医のスキルに大きく依存するため、自律的な外科的アプローチから大きな利益が得られます。
この研究では、我々は、死体と生きたウサギのモデル上で正確な針制御と一貫した大きなバブル境界を設定できるカスタマイズされたニューラルネットワークに基づく新しい自律手術ロボットシステム(AUTO-DALK)を提案しました。
従来の水平ニードルアプローチとは対照的に、大きな気泡を生成するためのAIベースの画像誘導垂直掘削アプローチの実現可能性を実証します。
当社のシステムは、光コヒーレンストモグラフィー (OCT) 光ファイバー遠位センサーを目に装着可能なマイクロ ロボット システムに統合しており、カスタム深層学習アルゴリズムを使用して OCT M モード深度信号を自動的にセグメント化し、角膜層を識別します。
これにより、深さ制御されたフィードバック ループを介してロボットが自律的に針を標的組織層に誘導できるようになります。
我々は、AUTO-DALK を使用した自律的な針挿入パフォーマンスとその結果として生じる肺切開を、1) フリーハンド挿入、2) OCT センサーによる手動挿入、3) 遠隔操作によるロボット挿入と比較し、挿入深さ、肺切開深さ、タスク完了の大幅な改善を報告しました。
時間と大きな泡の形成。
エクスビボおよびインビボの結果は、AI 駆動の AUTO-DALK システムが、部分層角膜形成術の気切開結果を標準化するための有望なソリューションであることを示しています。

要約(オリジナル)

Autonomous surgical robots have demonstrated significant potential to standardize surgical outcomes, driving innovations that enhance safety and consistency regardless of individual surgeon experience. Deep anterior lamellar keratoplasty (DALK), a partial thickness corneal transplant surgery aimed at replacing the anterior part of cornea above Descemet membrane (DM), would greatly benefit from an autonomous surgical approach as it highly relies on surgeon skill with high perforation rates. In this study, we proposed a novel autonomous surgical robotic system (AUTO-DALK) based on a customized neural network capable of precise needle control and consistent big bubble demarcation on cadaver and live rabbit models. We demonstrate the feasibility of an AI-based image-guided vertical drilling approach for big bubble generation, in contrast to the conventional horizontal needle approach. Our system integrates an optical coherence tomography (OCT) fiber optic distal sensor into the eye-mountable micro robotic system, which automatically segments OCT M-mode depth signals to identify corneal layers using a custom deep learning algorithm. It enables the robot to autonomously guide the needle to targeted tissue layers via a depth-controlled feedback loop. We compared autonomous needle insertion performance and resulting pneumo-dissection using AUTO-DALK against 1) freehand insertion, 2) OCT sensor guided manual insertion, and 3) teleoperated robotic insertion, reporting significant improvements in insertion depth, pneumo-dissection depth, task completion time, and big bubble formation. Ex vivo and in vivo results indicate that the AI-driven, AUTO-DALK system, is a promising solution to standardize pneumo-dissection outcomes for partial thickness keratoplasty.

arxiv情報

著者 Y. Wang,J. D. Opfermann,J. Yu,H. Yi,J. Kaluna,R. Biswas,R. Zuo,W. Gensheimer,A. Krieger,J. U. Kang
発行日 2024-10-18 16:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Reimagining partial thickness keratoplasty: An eye mountable robot for autonomous big bubble needle insertion はコメントを受け付けていません

LocoMan: Advancing Versatile Quadrupedal Dexterity with Lightweight Loco-Manipulators

要約

四足歩行ロボットは、複雑な環境で移動および操作できる多用途のエージェントとして登場しました。
従来の設計は通常、ロボットの固有の身体部分に依存するか、操作作業のために上部に取り付けられたアームを組み込んでいます。
ただし、これらの構成は、特に雑然とした空間や制限された空間では、ロボットの操作の器用さ、効率、適応性を制限する可能性があります。
この研究では、さまざまな制約された環境で多彩な操作を実行するための新しい形態を備えた器用な四足歩行ロボット、LocoMan を紹介します。
Unitree Go1 ロボットの前部ふくらはぎに 2 つの低コストで軽量のモジュラー 3-DoF ロコマニピュレーターを装備することで、LocoMan は脚とグリッパーの機動性と機能性を組み合わせて、エンドエフェクターの正確な 6D 位置決めを必要とする複雑な操作タスクに活用します。
広いワークスペースに。
LocoMan の運動器操作機能を活用するために、全身コントローラー (WBC) を拡張して運動器マニピュレーターのダイナミクスを統合する統合制御フレームワークを導入します。
実験を通じて、提案された全身コントローラーがエンドエフェクターと胴体の所望の 6D 軌道を正確かつ安定して追従できることを検証します。これは、私たちの設計による広い作業スペースと組み合わせると、さまざまな困難な器用な運動操作タスクを容易にします。
ドアを開ける、コンセントに差し込む、狭くて低い場所にある物体を拾う、両手で操作するなど、狭い空間での作業。

要約(オリジナル)

Quadrupedal robots have emerged as versatile agents capable of locomoting and manipulating in complex environments. Traditional designs typically rely on the robot’s inherent body parts or incorporate top-mounted arms for manipulation tasks. However, these configurations may limit the robot’s operational dexterity, efficiency and adaptability, particularly in cluttered or constrained spaces. In this work, we present LocoMan, a dexterous quadrupedal robot with a novel morphology to perform versatile manipulation in diverse constrained environments. By equipping a Unitree Go1 robot with two low-cost and lightweight modular 3-DoF loco-manipulators on its front calves, LocoMan leverages the combined mobility and functionality of the legs and grippers for complex manipulation tasks that require precise 6D positioning of the end effector in a wide workspace. To harness the loco-manipulation capabilities of LocoMan, we introduce a unified control framework that extends the whole-body controller (WBC) to integrate the dynamics of loco-manipulators. Through experiments, we validate that the proposed whole-body controller can accurately and stably follow desired 6D trajectories of the end effector and torso, which, when combined with the large workspace from our design, facilitates a diverse set of challenging dexterous loco-manipulation tasks in confined spaces, such as opening doors, plugging into sockets, picking objects in narrow and low-lying spaces, and bimanual manipulation.

arxiv情報

著者 Changyi Lin,Xingyu Liu,Yuxiang Yang,Yaru Niu,Wenhao Yu,Tingnan Zhang,Jie Tan,Byron Boots,Ding Zhao
発行日 2024-10-18 16:47:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LocoMan: Advancing Versatile Quadrupedal Dexterity with Lightweight Loco-Manipulators はコメントを受け付けていません

Comparing Differentiable and Dynamic Ray Tracing: Introducing the Multipath Lifetime Map

要約

車車間通信などの動的なシナリオの存在が増加するにつれ、無線伝播モデリング ツールは無線チャネルの急速に変化する性質に適応する必要があります。
最近、これらの課題に対処するために、Differentiable フレームワークと Dynamic Ray Tracing フレームワークの両方が登場しました。
ただし、これらのアプローチがどのように異なるのか、特定の状況でどれを使用する必要があるのか​​について混乱が生じることがよくあります。
このペーパーでは、これら 2 つの技術の概要と、UniBo の 3DSCAT と NVIDIA の Sionna という 2 つの最先端ツールとの比較分析を提供します。
これらの方法の範囲をより正確に特徴付けるために、新しいシミュレーション ベースのメトリックであるマルチパス ライフタイム マップを導入します。これにより、環境の幾何学的記述のみに基づいて無線チャネルの空間的および時間的コヒーレンスの評価が可能になります。
最後に、私たちの指標は古典的な都市部のストリートキャニオンシナリオで評価され、測定キャンペーンから得られたものと同様の結果が得られます。

要約(オリジナル)

With the increasing presence of dynamic scenarios, such as Vehicle-to-Vehicle communications, radio propagation modeling tools must adapt to the rapidly changing nature of the radio channel. Recently, both Differentiable and Dynamic Ray Tracing frameworks have emerged to address these challenges. However, there is often confusion about how these approaches differ and which one should be used in specific contexts. In this paper, we provide an overview of these two techniques and a comparative analysis against two state-of-the-art tools: 3DSCAT from UniBo and Sionna from NVIDIA. To provide a more precise characterization of the scope of these methods, we introduce a novel simulation-based metric, the Multipath Lifetime Map, which enables the evaluation of spatial and temporal coherence in radio channels only based on the geometrical description of the environment. Finally, our metrics are evaluated on a classic urban street canyon scenario, yielding similar results to those obtained from measurement campaigns.

arxiv情報

著者 Jérome Eertmans,Enrico Maria Vittuci,Vittorio Degli Esposti,Laurent Jacques,Claude Oestges
発行日 2024-10-18 15:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 51-08, cs.LG, D.2.2, eess.SP | Comparing Differentiable and Dynamic Ray Tracing: Introducing the Multipath Lifetime Map はコメントを受け付けていません

Diffusion-based Semi-supervised Spectral Algorithm for Regression on Manifolds

要約

我々は、高次元データ、特に低次元多様体内に埋め込まれたデータの回帰分析に取り組むための、新しい拡散ベースのスペクトル アルゴリズムを導入します。
従来のスペクトル アルゴリズムは、主に所定のカーネル関数に依存しているため、このような状況では不十分であることが多く、多様体ベースのデータに固有の複雑な構造に適切に対処できません。
グラフのラプラシアン近似を採用することにより、私たちの方法はヒート カーネルの局所推定特性を使用し、この障害を克服するための適応的でデータ駆動型のアプローチを提供します。
私たちのアルゴリズムのもう 1 つの明確な利点は、半教師あり学習フレームワークにあり、追加のラベルなしデータを完全に使用できるようになります。
この機能により、アルゴリズムがデータ多様体のスペクトルと曲率を調査できるようになり、データセットをより包括的に理解できるようになり、パフォーマンスが向上します。
さらに、私たちのアルゴリズムは完全にデータ駆動型で実行され、事前定義された多様体情報を必要とせず、データの固有の多様体構造内で直接動作します。
アルゴリズムの収束分析を提供します。
私たちの発見は、アルゴリズムが基礎となる多様体の固有次元のみに依存する収束率を達成し、それによってより高い周囲次元に関連する次元の呪いを回避することを明らかにしました。

要約(オリジナル)

We introduce a novel diffusion-based spectral algorithm to tackle regression analysis on high-dimensional data, particularly data embedded within lower-dimensional manifolds. Traditional spectral algorithms often fall short in such contexts, primarily due to the reliance on predetermined kernel functions, which inadequately address the complex structures inherent in manifold-based data. By employing graph Laplacian approximation, our method uses the local estimation property of heat kernel, offering an adaptive, data-driven approach to overcome this obstacle. Another distinct advantage of our algorithm lies in its semi-supervised learning framework, enabling it to fully use the additional unlabeled data. This ability enhances the performance by allowing the algorithm to dig the spectrum and curvature of the data manifold, providing a more comprehensive understanding of the dataset. Moreover, our algorithm performs in an entirely data-driven manner, operating directly within the intrinsic manifold structure of the data, without requiring any predefined manifold information. We provide a convergence analysis of our algorithm. Our findings reveal that the algorithm achieves a convergence rate that depends solely on the intrinsic dimension of the underlying manifold, thereby avoiding the curse of dimensionality associated with the higher ambient dimension.

arxiv情報

著者 Weichun Xia,Jiaxin Jiang,Lei Shi
発行日 2024-10-18 15:29:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Diffusion-based Semi-supervised Spectral Algorithm for Regression on Manifolds はコメントを受け付けていません

Retraining with Predicted Hard Labels Provably Increases Model Accuracy

要約

\textit{ノイズのあるラベル} でトレーニングされたモデルのパフォーマンスは、独自の予測された \textit{ハード} ラベル (つまり、$1$/$0$ ラベル) を使用してモデルを単に \textit{再トレーニング}するだけで改善されることがよくあります。
しかし、この現象の詳細な理論的特徴付けは不足しています。
この論文では、ランダムに破損したラベルが与えられた線形分離可能な設定での再トレーニングを理論的に分析し、再トレーニングにより、与えられた (ノイズの多い) ラベルで最初にトレーニングすることによって得られる母集団の精度が向上することを証明します。
私たちの知る限り、これはそのような理論上の最初の結果です。
再トレーニングは、ノイズの多いラベルを使用したトレーニングを含む、ローカル ラベルの差分プライバシー (DP) を使用したトレーニングの改善に応用できます。
私たちは、予測されたラベルが指定されたラベルと一致するサンプルを選択的に再トレーニングすると、\textit{追加のプライバシー コストなし}でラベル DP トレーニングが大幅に向上することを経験的に示しています。
私たちはこれを \textit{コンセンサスベースの再トレーニング} と呼びます。
例として、$\epsilon=3$ ラベル DP を使用して CIFAR-100 で ResNet-18 をトレーニングすると、コンセンサスベースの再トレーニングにより $6.4\%$ の精度向上が得られます。

要約(オリジナル)

The performance of a model trained with \textit{noisy labels} is often improved by simply \textit{retraining} the model with its own predicted \textit{hard} labels (i.e., $1$/$0$ labels). Yet, a detailed theoretical characterization of this phenomenon is lacking. In this paper, we theoretically analyze retraining in a linearly separable setting with randomly corrupted labels given to us and prove that retraining can improve the population accuracy obtained by initially training with the given (noisy) labels. To the best of our knowledge, this is the first such theoretical result. Retraining finds application in improving training with local label differential privacy (DP) which involves training with noisy labels. We empirically show that retraining selectively on the samples for which the predicted label matches the given label significantly improves label DP training at \textit{no extra privacy cost}; we call this \textit{consensus-based retraining}. As an example, when training ResNet-18 on CIFAR-100 with $\epsilon=3$ label DP, we obtain $6.4\%$ improvement in accuracy with consensus-based retraining.

arxiv情報

著者 Rudrajit Das,Inderjit S. Dhillon,Alessandro Epasto,Adel Javanmard,Jieming Mao,Vahab Mirrokni,Sujay Sanghavi,Peilin Zhong
発行日 2024-10-18 15:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML | Retraining with Predicted Hard Labels Provably Increases Model Accuracy はコメントを受け付けていません

Measuring Diversity: Axioms and Challenges

要約

多様性の概念は、画像や分子の生成からレコメンダー システムに至るまで、さまざまなアプリケーションで広く使用されています。
したがって、多様性を適切に測定できることが重要です。
この論文は、一連のオブジェクトの多様性を定量化する問題を扱います。
まず、既存の多様性対策の体系的なレビューを行い、場合によってはその望ましくない動作を調査します。
このレビューに基づいて、信頼性の高い多様性尺度の 3 つの望ましい特性 (公理)、単調性、一意性、連続性を定式化します。
既存の尺度のどれも 3 つの特性をすべて備えていないため、これらの尺度は多様性の定量化には適していないことを示します。
次に、すべての望ましい特性を持つ測度の 2 つの例を構築し、公理のリストが自己矛盾しないことを証明します。
残念ながら、構築された例は実際に使用するには計算が複雑すぎるため、リストされたすべての特性を備え、実際に計算できる多様性尺度を構築するという未解決の問題が提起されます。

要約(オリジナル)

The concept of diversity is widely used in various applications: from image or molecule generation to recommender systems. Thus, being able to properly measure diversity is important. This paper addresses the problem of quantifying diversity for a set of objects. First, we make a systematic review of existing diversity measures and explore their undesirable behavior in some cases. Based on this review, we formulate three desirable properties (axioms) of a reliable diversity measure: monotonicity, uniqueness, and continuity. We show that none of the existing measures has all three properties and thus these measures are not suitable for quantifying diversity. Then, we construct two examples of measures that have all the desirable properties, thus proving that the list of axioms is not self-contradicting. Unfortunately, the constructed examples are too computationally complex for practical use, thus we pose an open problem of constructing a diversity measure that has all the listed properties and can be computed in practice.

arxiv情報

著者 Mikhail Mironov,Liudmila Prokhorenkova
発行日 2024-10-18 15:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Measuring Diversity: Axioms and Challenges はコメントを受け付けていません