h2oGPT: Democratizing Large Language Models

要約

GPT-4 などの大規模言語モデル (LLM) 上に構築されたアプリケーションは、自然言語処理における人間レベルの機能により、AI に革命をもたらします。
ただし、偏ったテキスト、私的テキスト、または有害なテキストの存在や、著作権で保護された素材の不正な挿入など、多くの重大なリスクももたらします。
h2oGPT は、Generative Pretrained Transformer (GPT) に基づく LLM の作成と使用のためのオープンソース コード リポジトリ スイートです。
このプロジェクトの目標は、クローズドソースのアプローチに代わる世界最高の真のオープンソースを作成することです。
驚異的で止められないオープンソース コミュニティと協力し、その一環として、私たちは 70 億から 400 億のパラメーターで微調整されたいくつかの h2oGPT モデルをオープンソース化し、完全に寛容な Apache 2.0 ライセンスの下で商用利用が可能です。
私たちのリリースには、自然言語を使用した 100% プライベート ドキュメント検索が含まれています。
オープンソース言語モデルは、AI 開発を促進し、AI をよりアクセスしやすく信頼できるものにするのに役立ちます。
これらにより参入ハードルが下がり、人々やグループがニーズに合わせてこれらのモデルをカスタマイズできるようになります。
このオープン性により、革新性、透明性、公平性が高まります。
AI の利点を公平に共有するにはオープンソース戦略が必要であり、H2O.ai は AI と LLM の民主化を継続します。

要約(オリジナル)

Applications built on top of Large Language Models (LLMs) such as GPT-4 represent a revolution in AI due to their human-level capabilities in natural language processing. However, they also pose many significant risks such as the presence of biased, private, or harmful text, and the unauthorized inclusion of copyrighted material. We introduce h2oGPT, a suite of open-source code repositories for the creation and use of LLMs based on Generative Pretrained Transformers (GPTs). The goal of this project is to create the world’s best truly open-source alternative to closed-source approaches. In collaboration with and as part of the incredible and unstoppable open-source community, we open-source several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for commercial use under fully permissive Apache 2.0 licenses. Included in our release is 100\% private document search using natural language. Open-source language models help boost AI development and make it more accessible and trustworthy. They lower entry hurdles, allowing people and groups to tailor these models to their needs. This openness increases innovation, transparency, and fairness. An open-source strategy is needed to share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.

arxiv情報

著者 Arno Candel,Jon McKinney,Philipp Singer,Pascal Pfeiffer,Maximilian Jeblick,Prithvi Prabhu,Jeff Gambera,Mark Landry,Shivam Bansal,Ryan Chesler,Chun Ming Lee,Marcos V. Conde,Pasha Stetsenko,Olivier Grellier,SriSatish Ambati
発行日 2023-06-16 17:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.IR, cs.LG パーマリンク