要約
特定の統計メトリックまたはタスクに依存しない損失を最小限に抑えるために調整された従来のトレーニング方法(平均二乗エラーなど)とは対照的に、意思決定に焦点を当てた学習(DFL)は、下流の意思決定ツールで最適なパフォーマンスのために機械学習モデルをトレーニングします。
DFLは、システム制御信号が最適化されている間、凸最適化制御ポリシーの制約として表されるシステムダイナミクスのパラメーターを学習するために活用できるため、エンドツーエンドの学習フレームワークを作成することができると主張します。
これは、制御ポリシーが適用されると動作が変化するシステムに特に関連しているため、履歴データの適用が低下します。
提案されたアプローチは、システム識別を実行できます。つまり、システム分析モデルの適切なパラメーターを決定し、同時に制御して、モデルの精度が制御に最も関連する領域に焦点を合わせていることを確認します。
さらに、ブラックボックスシステムは非分化不可能であるため、システムの応答のみを測定するためだけに必要な損失関数を設計します。
DFLを安定させ、学習における潜在的な感情に対処するために、履歴データと制約緩和に関する事前トレーニングを提案します。
米国デンバーにある現実的な15ゾーンの建物のための建物の暖房、換気、エアコンの1日目の管理システムでの方法の有用性を示しています。
結果は、監督された学習を使用して履歴データから入手した従来のRCビルディングモデルがHVAC電力消費を過小評価していることを示しています。
私たちのケーススタディでは、元ポストコストは予想されたコストの平均6倍です。
一方、DFLを介して取得されたパラメーターを備えた同じRCモデルでは、Ex-Postコストは3%のみを過小評価しています。
要約(オリジナル)
As opposed to conventional training methods tailored to minimize a given statistical metric or task-agnostic loss (e.g., mean squared error), Decision-Focused Learning (DFL) trains machine learning models for optimal performance in downstream decision-making tools. We argue that DFL can be leveraged to learn the parameters of system dynamics, expressed as constraint of the convex optimization control policy, while the system control signal is being optimized, thus creating an end-to-end learning framework. This is particularly relevant for systems in which behavior changes once the control policy is applied, hence rendering historical data less applicable. The proposed approach can perform system identification – i.e., determine appropriate parameters for the system analytical model – and control simultaneously to ensure that the model’s accuracy is focused on areas most relevant to control. Furthermore, because black-box systems are non-differentiable, we design a loss function that requires solely to measure the system response. We propose pre-training on historical data and constraint relaxation to stabilize the DFL and deal with potential infeasibilities in learning. We demonstrate the usefulness of the method on a building Heating, Ventilation, and Air Conditioning day-ahead management system for a realistic 15-zone building located in Denver, US. The results show that the conventional RC building model, with the parameters obtained from historical data using supervised learning, underestimates HVAC electrical power consumption. For our case study, the ex-post cost is on average six times higher than the expected one. Meanwhile, the same RC model with parameters obtained via DFL underestimates the ex-post cost only by 3%.
arxiv情報
著者 | Pietro Favaro,Jean-François Toubeau,François Vallée,Yury Dvorkin |
発行日 | 2025-01-24 18:32:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google