要約
ランダム フォレストや勾配ブースト ツリーなどのノンパラメトリック機械学習モデルは、その予測精度により住宅価格の推定によく使用されますが、そのような方法では予測の不確実性を定量化する能力が制限されることがよくあります。
Conformal Prediction (CP) は、最小限の仮定で機械学習予測モデルに基づいて信頼セットを構築するための、モデルに依存しないフレームワークです。
しかし、住宅価格に見られる空間依存性のため、CP を直接適用すると、どこでも校正されない信頼セット、つまり、特定の地理的地域では信頼セットが大きすぎ、他の地域では信頼セットが小さすぎます。
私たちは、これを考慮して CP 信頼セットを調整するためのさまざまなアプローチを調査し、ノルウェーのオスロの住宅市場からのデータセットでそのパフォーマンスを実証します。
私たちの調査結果は、不適合スコアの \textit{局所的に重み付けされた} バージョンで信頼セットを調整すると、さまざまな地理的領域でカバレッジがより一貫して調整されることを示しています。
また、既知のデータ生成メカニズムを使用した理想的な条件下での住宅市場データに対する CP のパフォーマンスを実証的に調査するために、合成的に生成された販売価格に関するシミュレーション研究も実行します。
要約(オリジナル)
Non-parametric machine learning models, such as random forests and gradient boosted trees, are frequently used to estimate house prices due to their predictive accuracy, but such methods are often limited in their ability to quantify prediction uncertainty. Conformal Prediction (CP) is a model-agnostic framework for constructing confidence sets around machine learning prediction models with minimal assumptions. However, due to the spatial dependencies observed in house prices, direct application of CP leads to confidence sets that are not calibrated everywhere, i.e., too large of confidence sets in certain geographical regions and too small in others. We survey various approaches to adjust the CP confidence set to account for this and demonstrate their performance on a data set from the housing market in Oslo, Norway. Our findings indicate that calibrating the confidence sets on a \textit{locally weighted} version of the non-conformity scores makes the coverage more consistently calibrated in different geographical regions. We also perform a simulation study on synthetically generated sale prices to empirically explore the performance of CP on housing market data under idealized conditions with known data-generating mechanisms.
arxiv情報
| 著者 | Anders Hjort,Gudmund Horn Hermansen,Johan Pensar,Jonathan P. Williams |
| 発行日 | 2023-12-11 17:09:12+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google