Chat AI: A Seamless Slurm-Native Solution for HPC-Based Services

要約

大規模言語モデル(LLM)の普及により、研究者がオープンソースまたはカスタムで微調整されたLLMを実行でき、ユーザーの同意なしにデータが保存されることのない、効率的で安全かつプライベートな配信インフラに対する緊急のニーズが生まれています。最先端のGPUを搭載したハイパフォーマンス・コンピューティング(HPC)システムは、LLMのトレーニングに適していますが、そのバッチスケジューリングパラダイムは、AIアプリケーションのリアルタイム配信をサポートするようには設計されていません。一方、クラウドシステムはウェブサービスに適しているが、HPCクラスタの計算能力、特に最適な推論速度に必要な高価で希少なハイエンドGPUを利用できないのが一般的である。我々は、HPCシステム上で多数のLLMモデルを実行するスケーラブルなバックエンドに安全にアクセスできるクラウドVM上で実行されるウェブサービスからなる実装を持つアーキテクチャを提案する。LLMをホストするために我々のHPCインフラストラクチャを使用してウェブサービスを提供することで、地元の大学や研究センターの信頼できる環境を活用し、商業的なLLMサービスに代わるプライベートで安全なサービスを提供します。当社のソリューションは、HPCバッチスケジューラSlurmとネイティブに統合されているため、HPCクラスタ上にシームレスに展開することができ、Slurmが作成するスケジュールのギャップを利用しながら、通常のSlurmワークロードと並行して実行することができます。HPCシステムのセキュリティを確保するため、SSH ForceCommandディレクティブを使用して堅牢なサーキットブレーカーを構築し、Web向けサーバーへの攻撃が成功してもクラスタに影響が及ばないようにしています。私たちのシステムは本番サービスとして成功裏にデプロイされ、そのソースコードは୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛に公開されています。

要約(オリジナル)

The widespread adoption of large language models (LLMs) has created a pressing need for an efficient, secure and private serving infrastructure, which allows researchers to run open source or custom fine-tuned LLMs and ensures users that their data remains private and is not stored without their consent. While high-performance computing (HPC) systems equipped with state-of-the-art GPUs are well-suited for training LLMs, their batch scheduling paradigm is not designed to support real-time serving of AI applications. Cloud systems, on the other hand, are well suited for web services but commonly lack access to the computational power of HPC clusters, especially expensive and scarce high-end GPUs, which are required for optimal inference speed. We propose an architecture with an implementation consisting of a web service that runs on a cloud VM with secure access to a scalable backend running a multitude of LLM models on HPC systems. By offering a web service using our HPC infrastructure to host LLMs, we leverage the trusted environment of local universities and research centers to offer a private and secure alternative to commercial LLM services. Our solution natively integrates with the HPC batch scheduler Slurm, enabling seamless deployment on HPC clusters, and is able to run side by side with regular Slurm workloads, while utilizing gaps in the schedule created by Slurm. In order to ensure the security of the HPC system, we use the SSH ForceCommand directive to construct a robust circuit breaker, which prevents successful attacks on the web-facing server from affecting the cluster. We have successfully deployed our system as a production service, and made the source code available at \url{https://github.com/gwdg/chat-ai}

arxiv情報

著者 Ali Doosthosseini,Jonathan Decker,Hendrik Nolte,Julian M. Kunkel
発行日 2024-08-02 15:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.DC パーマリンク