Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI

要約

生成 NLP の動的な状況では、従来のテキスト処理パイプラインは特定のデータセット、タスク、モデルの組み合わせに合わせて調整されているため、研究の柔軟性と再現性が制限されます。
システム プロンプト、モデル固有の形式、指示などが複雑さを増しており、構造化されたモジュール式のカスタマイズ可能なソリューションへの移行が求められています。
このニーズに対処するために、生成言語モデルに合わせてカスタマイズ可能なテキスト データの準備と評価を行うための革新的なライブラリである Unitxt を紹介します。
Unitxt は、HuggingFace や LM-eval-harness などの共通ライブラリとネイティブに統合し、処理フローをモジュラー コンポーネントに分解して、簡単なカスタマイズと実務者間での共有を可能にします。
これらのコンポーネントには、モデル固有の形式、タスク プロンプト、その他多くの包括的なデータセット処理定義が含まれます。
Unitxt-Catalog はこれらのコンポーネントを一元化し、最新のテキスト データ ワークフローでのコラボレーションと探索を促進します。
Unitxt はツールであるだけでなく、コミュニティ主導のプラットフォームであり、ユーザーが協力してパイプラインを構築、共有、推進できるようにします。
https://github.com/IBM/unitxt で Unitxt コミュニティに参加してください。

要約(オリジナル)

In the dynamic landscape of generative NLP, traditional text processing pipelines limit research flexibility and reproducibility, as they are tailored to specific dataset, task, and model combinations. The escalating complexity, involving system prompts, model-specific formats, instructions, and more, calls for a shift to a structured, modular, and customizable solution. Addressing this need, we present Unitxt, an innovative library for customizable textual data preparation and evaluation tailored to generative language models. Unitxt natively integrates with common libraries like HuggingFace and LM-eval-harness and deconstructs processing flows into modular components, enabling easy customization and sharing between practitioners. These components encompass model-specific formats, task prompts, and many other comprehensive dataset processing definitions. The Unitxt-Catalog centralizes these components, fostering collaboration and exploration in modern textual data workflows. Beyond being a tool, Unitxt is a community-driven platform, empowering users to build, share, and advance their pipelines collaboratively. Join the Unitxt community at https://github.com/IBM/unitxt!

arxiv情報

著者 Elron Bandel,Yotam Perlitz,Elad Venezian,Roni Friedman-Melamed,Ofir Arviv,Matan Orbach,Shachar Don-Yehyia,Dafna Sheinwald,Ariel Gera,Leshem Choshen,Michal Shmueli-Scheuer,Yoav Katz
発行日 2024-01-25 08:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク