Managed Geo-Distributed Feature Store: Architecture and System Design

要約

企業は機械学習を使用して現実世界の問題を解決しており、その過程で数百から数千の機能を開発しています。
彼らは、さまざまなデータ ソースからのデータを変換し、将来の利用のために同じものを具体化するために、MLOps ライフ サイクルの一部として特徴量エンジニアリング パイプラインを構築しています。
機能ストアがなければ、さまざまなビジネス グループのさまざまなチームが上記のプロセスを個別に維持することになり、システム内で機能の競合や重複が発生する可能性があります。
データ サイエンティストは、既存の機能を検索して再利用するのが難しく、バージョン管理を維持するのが苦痛であると感じています。
さらに、オンライン (推論) とオフライン (トレーニング) のスキューやデータ漏洩に関連する機能の正確性違反もよくあります。
機械学習コミュニティでは、特徴ストアの必要性とその目的について幅広く議論されてきましたが、このペーパーでは、マネージド特徴ストアを構成する中核となるアーキテクチャ コンポーネントを把握し、そのようなシステムを構築する際の設計学習を共有することを目的としています。

要約(オリジナル)

Companies are using machine learning to solve real-world problems and are developing hundreds to thousands of features in the process. They are building feature engineering pipelines as part of MLOps life cycle to transform data from various data sources and materialize the same for future consumption. Without feature stores, different teams across various business groups would maintain the above process independently, which can lead to conflicting and duplicated features in the system. Data scientists find it hard to search for and reuse existing features and it is painful to maintain version control. Furthermore, feature correctness violations related to online (inferencing) – offline (training) skews and data leakage are common. Although the machine learning community has extensively discussed the need for feature stores and their purpose, this paper aims to capture the core architectural components that make up a managed feature store and to share the design learning in building such a system.

arxiv情報

著者 Anya Li,Bhala Ranganathan,Feng Pan,Mickey Zhang,Qianjun Xu,Runhan Li,Sethu Raman,Shail Paragbhai Shah,Vivienne Tang
発行日 2023-05-31 17:51:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.SE パーマリンク