On Sequential Fault-Intolerant Process Planning

要約

私たちは、連続障害不耐性プロセス計画(SFIPP)と呼ばれる計画の問題を提案し、研究します。
SFIPPは、すべての段階が成功した場合にのみ計画が成功したとみなされる多くの順次マルチステージの決定問題で共通の報酬構造をキャプチャします。
このような報酬構造は、古典的な添加剤の報酬構造とは異なり、薬物/材料の発見、セキュリティ、品質の批判的な製品設計などの重要な用途で発生します。
私たちは、各段階で不明な成功チャンスを持つ異なるアクションを選択する必要がある設定のために、確かにタイトなオンラインアルゴリズムを設計します。
アクションの行動が決定論的である基礎となるケースと、マルチアームの盗賊アルゴリズムの使用を通じて学習と搾取のための探索と搾取のための探索のバランスを効果的にバランスさせる確率的なケースの両方を行います。
経験的評価では、SFIPPインスタンスの構造に関する追加情報を活用する特殊なアルゴリズムが開発され、より一般的なアルゴリズムを上回ることを実証します。

要約(オリジナル)

We propose and study a planning problem we call Sequential Fault-Intolerant Process Planning (SFIPP). SFIPP captures a reward structure common in many sequential multi-stage decision problems where the planning is deemed successful only if all stages succeed. Such reward structures are different from classic additive reward structures and arise in important applications such as drug/material discovery, security, and quality-critical product design. We design provably tight online algorithms for settings in which we need to pick between different actions with unknown success chances at each stage. We do so both for the foundational case in which the behavior of actions is deterministic, and the case of probabilistic action outcomes, where we effectively balance exploration for learning and exploitation for planning through the usage of multi-armed bandit algorithms. In our empirical evaluations, we demonstrate that the specialized algorithms we develop, which leverage additional information about the structure of the SFIPP instance, outperform our more general algorithm.

arxiv情報

著者 Andrzej Kaczmarczyk,Davin Choo,Niclas Boehmer,Milind Tambe,Haifeng Xu
発行日 2025-02-07 15:20:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク