DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment

要約

近年、ロボット操作の分野では模倣学習が進んでいます。
ただし、高次元の状態空間、複雑なダイナミクス、マルチモーダルなアクション分布など、複雑な長期変形可能なオブジェクトのタスクを扱う場合には、依然として課題に直面しています。
従来の模倣学習方法では、多くの場合、大量のデータが必要となり、これらのタスクで分布の変化や累積誤差が発生します。
これらの問題に対処するために、私たちは、好みの学習と報酬に基づくアクションの選択に基づいた、データ効率の高い一般学習フレームワーク (DeformPAM) を提案します。
DeformPAM は、長期的なタスクを複数のアクション プリミティブに分解し、3D 点群入力と拡散モデルを利用してアクション分布をモデル化し、人間の嗜好データを使用して暗黙的な報酬モデルをトレーニングします。
推論フェーズ中に、報酬モデルは複数の候補アクションをスコアリングし、実行に最適なアクションを選択します。これにより、異常なアクションの発生が減少し、タスク完了の品質が向上します。
3 つの挑戦的な現実世界の水平方向の長い変形可能なオブジェクト操作タスクで行われた実験により、この方法の有効性が実証されました。
結果は、DeformPAM がデータが限られている場合でも、ベースライン手法と比較してタスク完了の品質と効率の両方を向上させることを示しています。
コードとデータは https://deform-pam.robotflow.ai で入手できます。

要約(オリジナル)

In recent years, imitation learning has made progress in the field of robotic manipulation. However, it still faces challenges when dealing with complex long-horizon deformable object tasks, such as high-dimensional state spaces, complex dynamics, and multimodal action distributions. Traditional imitation learning methods often require a large amount of data and encounter distributional shifts and accumulative errors in these tasks. To address these issues, we propose a data-efficient general learning framework (DeformPAM) based on preference learning and reward-guided action selection. DeformPAM decomposes long-horizon tasks into multiple action primitives, utilizes 3D point cloud inputs and diffusion models to model action distributions, and trains an implicit reward model using human preference data. During the inference phase, the reward model scores multiple candidate actions, selecting the optimal action for execution, thereby reducing the occurrence of anomalous actions and improving task completion quality. Experiments conducted on three challenging real-world long-horizon deformable object manipulation tasks demonstrate the effectiveness of this method. Results show that DeformPAM improves both task completion quality and efficiency compared to baseline methods even with limited data. Code and data will be available at https://deform-pam.robotflow.ai.

arxiv情報

著者 Wendi Chen,Han Xue,Fangyuan Zhou,Yuan Fang,Cewu Lu
発行日 2024-10-15 13:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment はコメントを受け付けていません

Robust Manipulation Primitive Learning via Domain Contraction

要約

接触が多い操作は人間の日常活動において重要な役割を果たしますが、不確実なパラメータはロボットが計画と制御を通じて同等のパフォーマンスを達成するために大きな課題を引き起こします。
この問題に対処するために、堅牢なポリシー学習のためにドメイン適応とドメインランダム化が提案されています。
ただし、さまざまなインスタンスにわたる一般化機能が失われるか、インスタンス固有の情報が無視されるために保守的にパフォーマンスが低下します。
この論文では、複数のモデルを使用したパラメータ拡張ポリシー学習と、ドメイン縮小によるパラメータ条件付きポリシー検索を含む、ロバストな操作プリミティブを学習するための 2 レベルのアプローチを提案します。
このアプローチは、ドメインのランダム化とドメインの適応を統合し、汎化能力を維持しながら最適な動作を提供します。
提案された方法を、接触が多い操作プリミティブ (叩く、押す、向きを変える) について検証します。
実験結果は、多様な物理パラメータを持つインスタンスに対して堅牢なポリシーを生成する際の、私たちのアプローチの優れたパフォーマンスを示しています。

要約(オリジナル)

Contact-rich manipulation plays an important role in human daily activities, but uncertain parameters pose significant challenges for robots to achieve comparable performance through planning and control. To address this issue, domain adaptation and domain randomization have been proposed for robust policy learning. However, they either lose the generalization ability across diverse instances or perform conservatively due to neglecting instance-specific information. In this paper, we propose a bi-level approach to learn robust manipulation primitives, including parameter-augmented policy learning using multiple models, and parameter-conditioned policy retrieval through domain contraction. This approach unifies domain randomization and domain adaptation, providing optimal behaviors while keeping generalization ability. We validate the proposed method on three contact-rich manipulation primitives: hitting, pushing, and reorientation. The experimental results showcase the superior performance of our approach in generating robust policies for instances with diverse physical parameters.

arxiv情報

著者 Teng Xue,Amirreza Razmjoo,Suhan Shetty,Sylvain Calinon
発行日 2024-10-15 13:37:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robust Manipulation Primitive Learning via Domain Contraction はコメントを受け付けていません

Equivariant Diffusion Policy

要約

最近の研究では、拡散モデルが、動作クローニングにおけるデモンストレーション データから生じる多峰性分布を学習するための効果的なアプローチであることが示されています。
ただし、このアプローチの欠点は、ノイズ除去関数を学習する必要があることであり、明示的なポリシーを学習するよりもはるかに複雑です。
この研究では、領域の対称性を利用してノイズ除去関数のサンプル効率と一般化を向上させる新しい拡散ポリシー学習方法である等変拡散ポリシーを提案します。
完全な 6-DoF 制御の $\mathrm{SO}(2)$ 対称性を理論的に分析し、拡散モデルが $\mathrm{SO}(2)$ 等変である場合の特徴を示します。
さらに、MimicGen の 12 のシミュレーション タスクのセットでこの方法を実験的に評価し、ベースラインの拡散ポリシーよりも平均で 21.9% 高い成功率が得られることを示します。
また、実世界のシステムでこの方法を評価し、比較的少ないトレーニング サンプルで効果的なポリシーを学習できるのに対し、ベースラインの拡散ポリシーでは学習できないことを示します。

要約(オリジナル)

Recent work has shown diffusion models are an effective approach to learning the multimodal distributions arising from demonstration data in behavior cloning. However, a drawback of this approach is the need to learn a denoising function, which is significantly more complex than learning an explicit policy. In this work, we propose Equivariant Diffusion Policy, a novel diffusion policy learning method that leverages domain symmetries to obtain better sample efficiency and generalization in the denoising function. We theoretically analyze the $\mathrm{SO}(2)$ symmetry of full 6-DoF control and characterize when a diffusion model is $\mathrm{SO}(2)$-equivariant. We furthermore evaluate the method empirically on a set of 12 simulation tasks in MimicGen, and show that it obtains a success rate that is, on average, 21.9% higher than the baseline Diffusion Policy. We also evaluate the method on a real-world system to show that effective policies can be learned with relatively few training samples, whereas the baseline Diffusion Policy cannot.

arxiv情報

著者 Dian Wang,Stephen Hart,David Surovik,Tarik Kelestemur,Haojie Huang,Haibo Zhao,Mark Yeatman,Jiuguang Wang,Robin Walters,Robert Platt
発行日 2024-10-15 14:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Equivariant Diffusion Policy はコメントを受け付けていません

Safety Filtering While Training: Improving the Performance and Sample Efficiency of Reinforcement Learning Agents

要約

強化学習 (RL) コントローラーは柔軟性とパフォーマンスに優れていますが、安全性が保証されることはほとんどありません。
安全フィルターは、柔軟性を維持しながら、RL コントローラーに厳しい安全性を保証します。
ただし、安全フィルタは、コントローラと安全フィルタの間の分離により望ましくない動作を引き起こす可能性があり、多くの場合、パフォーマンスと堅牢性が低下します。
この論文では、安全フィルターを評価中にのみ適用するのではなく、RL コントローラーのトレーニングに組み込むためのいくつかの修正を提案します。
この変更により、RL コントローラーが安全フィルターを考慮して学習できるようになり、パフォーマンスが向上します。
さらに、修正によりサンプル効率が大幅に向上し、トレーニング時間の制約違反が排除されます。
私たちは、Crazyflie 2.0 ドローンを使用したシミュレーション実験と実際の実験で、提案された修正を検証しました。
実験では、提案されたトレーニング アプローチでは必要な環境インタラクションが大幅に減り、標準的な RL トレーニングと比較してパフォーマンスが最大 20% 向上することが示されました。

要約(オリジナル)

Reinforcement learning (RL) controllers are flexible and performant but rarely guarantee safety. Safety filters impart hard safety guarantees to RL controllers while maintaining flexibility. However, safety filters can cause undesired behaviours due to the separation between the controller and the safety filter, often degrading performance and robustness. In this paper, we propose several modifications to incorporating the safety filter in training RL controllers rather than solely applying it during evaluation. The modifications allow the RL controller to learn to account for the safety filter, improving performance. Additionally, our modifications significantly improve sample efficiency and eliminate training-time constraint violations. We verified the proposed modifications in simulated and real experiments with a Crazyflie 2.0 drone. In experiments, we show that the proposed training approaches require significantly fewer environment interactions and improve performance by up to 20% compared to standard RL training.

arxiv情報

著者 Federico Pizarro Bejarano,Lukas Brunke,Angela P. Schoellig
発行日 2024-10-15 15:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Safety Filtering While Training: Improving the Performance and Sample Efficiency of Reinforcement Learning Agents はコメントを受け付けていません

Octopus-Swimming-Like Robot with Soft Asymmetric Arms

要約

水中ビークルは過去 70 年間にわたって大幅な発展を遂げてきました。
しかし、生物から着想を得た推進ロボットはまだ初期段階にあり、生物学者とロボット工学者の間のより学際的な協力が必要です。
最も知的な海洋動物の一つであるタコは、腕を使って泳ぎながら、カモフラージュ、探索、狩猟などの優れた能力を発揮します。
バイオから着想を得たロボット研究者たちは、これらの能力を再現することを目指してきましたが、8 アームのバイオニック水泳プラットフォームの設計の複雑さにより、当初から課題が生じていました。
この研究では、非対称のパッシブモーフィングアームと傘のようなクイックリターン機構を組み合わせた、新しいバイオニックロボット水泳プラットフォームを提案します。
シンプルな定速モーターを 2 つだけ使用するこの設計は、タコのような腕の動きとストローク時間の比率を再現することで効率的な水泳を実現します。
ロボットは、2 回目の動力ストローク中に 314 mm/s のピーク速度に達しました。
この設計により、良好な水泳パフォーマンスを維持しながら、従来のタコのような水泳ロボットの作動システムの複雑さが軽減されます。
これは、タコにヒントを得たロボット工学や生物学のより深い研究を行う生物学者やロボット工学者にとって、より達成可能で効率的なプラットフォームを提供します。

要約(オリジナル)

Underwater vehicles have seen significant development over the past seventy years. However, bio-inspired propulsion robots are still in their early stages and require greater interdisciplinary collaboration between biologists and roboticists. The octopus, one of the most intelligent marine animals, exhibits remarkable abilities such as camouflaging, exploring, and hunting while swimming with its arms. Although bio-inspired robotics researchers have aimed to replicate these abilities, the complexity of designing an eight-arm bionic swimming platform has posed challenges from the beginning. In this work, we propose a novel bionic robot swimming platform that combines asymmetric passive morphing arms with an umbrella-like quick-return mechanism. Using only two simple constant-speed motors, this design achieves efficient swimming by replicating octopus-like arm movements and stroke time ratios. The robot reached a peak speed of 314 mm/s during its second power stroke. This design reduces the complexity of traditional octopus-like swimming robot actuation systems while maintaining good swimming performance. It offers a more achievable and efficient platform for biologists and roboticists conducting more profound octopus-inspired robotic and biological studies.

arxiv情報

著者 Bobing Zhang,Yiyuan Zhang,Yiming Li,Sicheng Xuan,Hong Wei Ng,Yuliang Liufu,Zhiqiang Tang,Cecilia Laschi
発行日 2024-10-15 16:35:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Octopus-Swimming-Like Robot with Soft Asymmetric Arms はコメントを受け付けていません

LAP, Using Action Feasibility for Improved Uncertainty Alignment of Large Language Model Planners

要約

大規模言語モデル (LLM) は、インテリジェントで役立つロボットに望ましい特性を数多く示しています。
しかし、彼らは幻覚的な予測をすることも知られています。
この問題はロボット工学においてさらに悪化し、LLM 幻覚により、ロボットがユーザーの目標に反する計画を自信を持って実行したり、人間の支援に依存することが多くなったり、ロボットがまったく助けを求めなくなったりする可能性があります。
この研究では、有害な幻覚や人間の介入を最小限に抑えるロボット プランナーで、既製の LLM を利用するための新しいアプローチである LAP と、新しいアクション実行可能性メトリクスを紹介します。
私たちの主な発見は、A-Feasibility と呼ばれる新しい指標 (指定されたシーンで特定のアクションが可能で安全であるかどうかの尺度) を計算して活用することで、LLM 予測における幻覚を軽減し、LLM の信頼度の尺度をより適切に調整するのに役立つということです。
成功の確率。
特に、シーンのコンテキストと、LLM の応答を使用してスコアを計算することにより、シーン内で特定のアクションが可能で安全かどうかを LLM に判断させることを組み合わせた A-Feasibility メトリクスを提案します。
さまざまな曖昧さのあるタスクに関するシミュレーションと現実世界の両方での実験を通じて、LAP が従来技術と比較して成功率を大幅に高め、必要な人間の介入の量を減らすことを示しました。
たとえば、実際のテスト パラダイムでは、LAP は以前の方法の人的支援率を 33% 以上減少させ、成功率は 70% でした。

要約(オリジナル)

Large language models (LLMs) showcase many desirable traits for intelligent and helpful robots. However, they are also known to hallucinate predictions. This issue is exacerbated in robotics where LLM hallucinations may result in robots confidently executing plans that are contrary to user goals, relying more frequently on human assistance, or preventing the robot from asking for help at all. In this work, we present LAP, a novel approach for utilizing off-the-shelf LLMs, alongside a novel Action feasibility metric, in robotic Planners that minimize harmful hallucinations and human intervention. Our key finding is that calculating and leveraging a new metric, which we call A-Feasibility, a measure of whether a given action is possible and safe in the provided scene, helps to mitigate hallucinations in LLM predictions and better align the LLM’s confidence measure with the probability of success. We specifically propose an A-Feasibility metric which both combines scene context and prompting a LLM to determine if a given action is possible and safe in the scene, using the LLM’s response to compute the score. Through experiments in both simulation and the real world on tasks with a variety of ambiguities, we show that LAP significantly increases success rate and decreases the amount of human intervention required relative to prior art. For example, in our real-world testing paradigm, LAP decreases the human help rate of previous methods by over 33% at a success rate of 70%.

arxiv情報

著者 James F. Mullen Jr.,Dinesh Manocha
発行日 2024-10-15 16:35:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LAP, Using Action Feasibility for Improved Uncertainty Alignment of Large Language Model Planners はコメントを受け付けていません

Adaptive Ankle Torque Control for Bipedal Humanoid Walking on Surfaces with Unknown Horizontal and Vertical Motion

要約

未知の運動を持つ表面上で安定した二足歩行を実現することは、ロボットのハイブリッドで時間変化する部分的に未知のダイナミクスと、正確な状態と表面運動の推定の難しさのため、依然として難しい制御問題です。
表面の動きは、システムパラメータと歩行ロボットのダイナミクスにおける不均一な外乱の両方に不確実性をもたらします。
この論文では、これら 2 つの不確実性に同時に対処する適応足首トルク コントローラーを設計し、必要な制御トルクを最小限に抑えるためのステップ長プランナーを提案します。
通常、適応コントローラーは連続システムに使用されます。
歩行ロボットなどのハイブリッド システムに適応制御を適用するには、連続エラー システムを保証するために中間コマンド プロファイルが導入されます。
平面二足歩行ロボットのシミュレーションと、ベースライン コントローラーとの比較により、提案されたアプローチが未知の時間変化する外乱下でも安定した歩行と正確な追跡を効果的に保証することが実証されました。

要約(オリジナル)

Achieving stable bipedal walking on surfaces with unknown motion remains a challenging control problem due to the hybrid, time-varying, partially unknown dynamics of the robot and the difficulty of accurate state and surface motion estimation. Surface motion imposes uncertainty on both system parameters and non-homogeneous disturbance in the walking robot dynamics. In this paper, we design an adaptive ankle torque controller to simultaneously address these two uncertainties and propose a step-length planner to minimize the required control torque. Typically, an adaptive controller is used for a continuous system. To apply adaptive control on a hybrid system such as a walking robot, an intermediate command profile is introduced to ensure a continuous error system. Simulations on a planar bipedal robot, along with comparisons against a baseline controller, demonstrate that the proposed approach effectively ensures stable walking and accurate tracking under unknown, time-varying disturbances.

arxiv情報

著者 Jacob Stewart,I-Chia Chang,Yan Gu,Petros A. Ioannou
発行日 2024-10-15 17:21:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Adaptive Ankle Torque Control for Bipedal Humanoid Walking on Surfaces with Unknown Horizontal and Vertical Motion はコメントを受け付けていません

DextrAH-G: Pixels-to-Action Dexterous Arm-Hand Grasping with Geometric Fabrics

要約

ロボット工学における極めて重要な課題は、産業用途における重要な目標である、さまざまな対象物を素早く、安全かつ堅牢に器用に把握することです。
ただし、既存の方法では、速度、器用さ、汎用性が非常に限られていることが多く、ハードウェアの安全性保証も限られているか、まったくありません。
この研究では、DextrAH-G を導入します。DextrAH-G は、強化学習、幾何学的ファブリック、教師と生徒の蒸留を組み合わせたシミュレーションで完全に訓練された、深さに基づく器用な把握ポリシーです。
私たちは、高次元の観察空間とアクション空間、sim2real ギャップ、衝突回避、ハードウェア制約など、腕と手の共同ポリシー学習における重要な課題に取り組みます。
DextrAH-G を使用すると、23 モーターのアームハンド ロボットが、深度画像を含むマルチモーダル入力を使用して、安全かつ継続的にさまざまな物体を高速で掴み、搬送できるようになり、物体形状全体にわたる汎用化が可能になります。
ビデオは https://sites.google.com/view/dextrah-g にあります。

要約(オリジナル)

A pivotal challenge in robotics is achieving fast, safe, and robust dexterous grasping across a diverse range of objects, an important goal within industrial applications. However, existing methods often have very limited speed, dexterity, and generality, along with limited or no hardware safety guarantees. In this work, we introduce DextrAH-G, a depth-based dexterous grasping policy trained entirely in simulation that combines reinforcement learning, geometric fabrics, and teacher-student distillation. We address key challenges in joint arm-hand policy learning, such as high-dimensional observation and action spaces, the sim2real gap, collision avoidance, and hardware constraints. DextrAH-G enables a 23 motor arm-hand robot to safely and continuously grasp and transport a large variety of objects at high speed using multi-modal inputs including depth images, allowing generalization across object geometry. Videos at https://sites.google.com/view/dextrah-g.

arxiv情報

著者 Tyler Ga Wei Lum,Martin Matak,Viktor Makoviychuk,Ankur Handa,Arthur Allshire,Tucker Hermans,Nathan D. Ratliff,Karl Van Wyk
発行日 2024-10-15 17:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DextrAH-G: Pixels-to-Action Dexterous Arm-Hand Grasping with Geometric Fabrics はコメントを受け付けていません

Contrastive Touch-to-Touch Pretraining

要約

今日の触覚センサーにはさまざまな設計があり、タッチ信号を処理するための汎用方法を開発することが困難になっています。
この論文では、異なる触覚センサー間の共有情報を捉える統一表現について学びます。
再構成やタスク固有の監視に焦点を当てた現在のアプローチとは異なり、私たちは対照学習を活用して、同じ物体が複数のセンサーでプローブされるデータセットを使用して、2 つの異なるセンサーからの触覚信号を共有埋め込み空間に統合します。
このアプローチを、GelSlim センサーと Soft Bubble センサーからのペアのタッチ信号に適用します。
学習された特徴が、下流の姿勢推定および分類タスクに強力な事前トレーニングを提供することを示します。
また、埋め込みにより、1 つのタッチ センサーを使用してトレーニングされたモデルを、追加のトレーニングなしで別のタッチ センサーを使用して展開できることも示します。
プロジェクトの詳細は、https://www.mmintlab.com/research/cttp/ でご覧いただけます。

要約(オリジナル)

Today’s tactile sensors have a variety of different designs, making it challenging to develop general-purpose methods for processing touch signals. In this paper, we learn a unified representation that captures the shared information between different tactile sensors. Unlike current approaches that focus on reconstruction or task-specific supervision, we leverage contrastive learning to integrate tactile signals from two different sensors into a shared embedding space, using a dataset in which the same objects are probed with multiple sensors. We apply this approach to paired touch signals from GelSlim and Soft Bubble sensors. We show that our learned features provide strong pretraining for downstream pose estimation and classification tasks. We also show that our embedding enables models trained using one touch sensor to be deployed using another without additional training. Project details can be found at https://www.mmintlab.com/research/cttp/.

arxiv情報

著者 Samanta Rodriguez,Yiming Dou,William van den Bogert,Miquel Oller,Kevin So,Andrew Owens,Nima Fazeli
発行日 2024-10-15 17:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Contrastive Touch-to-Touch Pretraining はコメントを受け付けていません

An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits

要約

管理者が変更の価値を厳密に定量化し、それが現状から統計的に有意な改善につながるかどうかを判断するには、実験が不可欠です。
広くリリースする前にすべての変更を実験することを企業が義務付けるようになるにつれて、(1) 劣悪な処理に割り当てられる顧客の割合を最小限に抑えること、および (2) データに依存した停止を可能にすることで実験の速度を高めることという 2 つの課題が生じます。
この論文では、\emph{any} MAB アルゴリズムの平均治療効果 (ATE) に関するいつでも有効な推論を可能にする、マルチアーム バンディット (MAB) アルゴリズムの新しい実験計画である混合適応設計 (MAD) を導入することで、両方の課題に対処します。

MAD は直感的に、任意のバンディット アルゴリズムとベルヌーイ設計を「混合」します。各タイム ステップで、ベルヌーイ設計を介して単位を割り当てる確率は、ゼロに収束するユーザー指定の決定論的シーケンスによって決定されます。
このシーケンスにより、マネージャーは後悔の最小化と推論の精度の間のトレードオフを直接制御できます。
シーケンスがゼロに収束するレートに関する穏やかな条件下では、漸近的にいつでも有効で、真の ATE 付近に縮小することが保証される信頼シーケンスを提供します。
したがって、真の ATE がゼロ以外の値に収束すると、MAD 信頼シーケンスは有限時間内にゼロを除外することが保証されます。
したがって、MAD を使用すると、管理者は有効な推論を確保しながら実験を早期に停止できるため、適応実験の効率と信頼性の両方が向上します。
経験的に、MAD は、標準的なバンディット設計と比較して報酬に重大な損失を被ることなく、正確かつ正確に ATE を推定しなが​​ら、有限サンプルの常時有効性を達成することを実証しています。

要約(オリジナル)

Experimentation is crucial for managers to rigorously quantify the value of a change and determine if it leads to a statistically significant improvement over the status quo. As companies increasingly mandate that all changes undergo experimentation before widespread release, two challenges arise: (1) minimizing the proportion of customers assigned to the inferior treatment and (2) increasing experimentation velocity by enabling data-dependent stopping. This paper addresses both challenges by introducing the Mixture Adaptive Design (MAD), a new experimental design for multi-armed bandit (MAB) algorithms that enables anytime-valid inference on the Average Treatment Effect (ATE) for \emph{any} MAB algorithm. Intuitively, MAD ‘mixes’ any bandit algorithm with a Bernoulli design, where at each time step, the probability of assigning a unit via the Bernoulli design is determined by a user-specified deterministic sequence that can converge to zero. This sequence lets managers directly control the trade-off between regret minimization and inferential precision. Under mild conditions on the rate the sequence converges to zero, we provide a confidence sequence that is asymptotically anytime-valid and guaranteed to shrink around the true ATE. Hence, when the true ATE converges to a non-zero value, the MAD confidence sequence is guaranteed to exclude zero in finite time. Therefore, the MAD enables managers to stop experiments early while ensuring valid inference, enhancing both the efficiency and reliability of adaptive experiments. Empirically, we demonstrate that the MAD achieves finite-sample anytime-validity while accurately and precisely estimating the ATE, all without incurring significant losses in reward compared to standard bandit designs.

arxiv情報

著者 Biyonka Liang,Iavor Bojinov
発行日 2024-10-15 15:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME | An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits はコメントを受け付けていません