Dataverse: Open-Source ETL (Extract, Transform, Load) Pipeline for Large Language Models

要約

大規模なデータ処理に関連する課題に対処するために、私たちは、ユーザーフレンドリーな設計を核とした大規模言語モデル (LLM) 用の統合されたオープンソースの抽出-変換-ロード (ETL) パイプラインである Dataverse を提案します。
Dataverse ではブロックベースのインターフェイスを備えたカスタム プロセッサを簡単に追加できるため、ユーザーは Dataverse を簡単かつ効率的に使用して独自の ETL パイプラインを構築できます。
私たちは、Dataverse が LLM 開発に不可欠なツールとして機能し、コミュニティの貢献を歓迎するためにライブラリ全体をオープンソース化することを願っています。
さらに、システムの機能と実装を説明する、システムの簡潔な 2 分間のビデオ デモンストレーションも提供します。

要約(オリジナル)

To address the challenges associated with data processing at scale, we propose Dataverse, a unified open-source Extract-Transform-Load (ETL) pipeline for large language models (LLMs) with a user-friendly design at its core. Easy addition of custom processors with block-based interface in Dataverse allows users to readily and efficiently use Dataverse to build their own ETL pipeline. We hope that Dataverse will serve as a vital tool for LLM development and open source the entire library to welcome community contribution. Additionally, we provide a concise, two-minute video demonstration of our system, illustrating its capabilities and implementation.

arxiv情報

著者 Hyunbyung Park,Sukyung Lee,Gyoungjin Gim,Yungi Kim,Dahyun Kim,Chanjun Park
発行日 2024-03-28 11:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク