Towards Interactively Improving ML Data Preparation Code via ‘Shadow Pipelines’

要約

データ サイエンティストは、反復的な方法で ML パイプラインを開発します。つまり、潜在的な問題がないかパイプラインを繰り返しスクリーニングし、デバッグし、結果に応じてコードを修正および改善します。
ただし、この手動プロセスは面倒でエラーが発生しやすくなります。
したがって、私たちは、パイプライン改善のための自動的に導き出された対話型の提案によって、この開発サイクル中にデータ サイエンティストをサポートすることを提案します。
私たちは、潜在的な問題を自動検出するためにそれを変更する元のパイプラインの隠れたバリアントである、いわゆるシャドウ パイプラインを使用してこれらの提案を生成し、改善のための変更を試し、これらの変更をユーザーに提案して説明するというビジョンについて話し合います。
私たちは、増分ビュー メンテナンス ベースの最適化を適用して、シャドウ パイプラインの低レイテンシーの計算とメンテナンスを保証することを想定しています。
私たちは、想定したアプローチの実現可能性と、提案した最適化の潜在的な利点を示すために予備実験を実施します。

要約(オリジナル)

Data scientists develop ML pipelines in an iterative manner: they repeatedly screen a pipeline for potential issues, debug it, and then revise and improve its code according to their findings. However, this manual process is tedious and error-prone. Therefore, we propose to support data scientists during this development cycle with automatically derived interactive suggestions for pipeline improvements. We discuss our vision to generate these suggestions with so-called shadow pipelines, hidden variants of the original pipeline that modify it to auto-detect potential issues, try out modifications for improvements, and suggest and explain these modifications to the user. We envision to apply incremental view maintenance-based optimisations to ensure low-latency computation and maintenance of the shadow pipelines. We conduct preliminary experiments to showcase the feasibility of our envisioned approach and the potential benefits of our proposed optimisations.

arxiv情報

著者 Stefan Grafberger,Paul Groth,Sebastian Schelter
発行日 2024-04-30 14:36:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.LG, cs.SE, H.2.8 パーマリンク