要約
近年、治療効果の推定のための多数の複雑なアルゴリズムが開発されていますが、治療後の効果、たとえば高価な腫瘍イメージングまたは治療効果を評価するために必要な生検手順をラベル付けするコストが高いため、トレーニングセットが不十分にラベル付けされる場合、その有効性は限られたままです。
したがって、制約されたラベル予算を順守しながら、より高品質のラベル付きデータを積極的に組み込むことが不可欠になります。
データ効率の高い治療効果の推定を有効にするために、アクティブな学習コンテキスト内の厳密な理論分析を通じて問題を形式化します。ここで、派生した主要な測定 – \ textit {factual}および\ textit {counteractualカバーラジアス}がリスク上限を決定します。
バウンドを減らすために、理想的でバランスの取れたデータ分布の下で優れた貪欲な半径削減アルゴリズムを提案します。
より現実的なデータ分布に一般化するために、さらにFCCMを提案します。これにより、最適化目標を\ textit {factual}および\ textit {counteractualカバレッジの最大化}に変換して、データ収集中の効果的な半径削減を確保します。
さらに、FCCMを他のベースラインに対してベンチマークすることは、完全な合成データセットと半合成データセットの両方でその優位性を示しています。
要約(オリジナル)
Although numerous complex algorithms for treatment effect estimation have been developed in recent years, their effectiveness remains limited when handling insufficiently labeled training sets due to the high cost of labeling the effect after treatment, e.g., expensive tumor imaging or biopsy procedures needed to evaluate treatment effects. Therefore, it becomes essential to actively incorporate more high-quality labeled data, all while adhering to a constrained labeling budget. To enable data-efficient treatment effect estimation, we formalize the problem through rigorous theoretical analysis within the active learning context, where the derived key measures — \textit{factual} and \textit{counterfactual covering radius} determine the risk upper bound. To reduce the bound, we propose a greedy radius reduction algorithm, which excels under an idealized, balanced data distribution. To generalize to more realistic data distributions, we further propose FCCM, which transforms the optimization objective into the \textit{Factual} and \textit{Counterfactual Coverage Maximization} to ensure effective radius reduction during data acquisition. Furthermore, benchmarking FCCM against other baselines demonstrates its superiority across both fully synthetic and semi-synthetic datasets.
arxiv情報
著者 | Hechuan Wen,Tong Chen,Mingming Gong,Li Kheng Chai,Shazia Sadiq,Hongzhi Yin |
発行日 | 2025-05-08 13:42:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google