HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

要約

さまざまなドメインとモダリティで複雑な AI タスクを解決することは、汎用人工知能 (AGI) への重要なステップです。
さまざまなドメインやモダリティで利用できる豊富な AI モデルがありますが、複雑な AI タスクを処理することはできません。
大規模言語モデル (LLM) が言語の理解、生成、相互作用、および推論において卓越した能力を発揮したことを考慮すると、LLM は既存の AI モデルを管理して複雑な AI タスクを解決するためのコントローラーとして機能し、言語は機能を強化するための汎用インターフェイスになる可能性があることを提唱します。
これ。
この哲学に基づいて、LLM (ChatGPT など) を活用して機械学習コミュニティ (HuggingFace など) のさまざまな AI モデルを接続し、AI タスクを解決するシステムである HuggingGPT を紹介します。
具体的には、ChatGPTを利用してユーザーからのリクエストを受けてタスクプランニングを行い、HuggingFaceの機能説明からモデルを選択し、選択したAIモデルで各サブタスクを実行し、実行結果に応じてレスポンスをまとめます。
ChatGPT の強力な言語機能と HuggingFace の豊富な AI モデルを活用することで、HuggingGPT はさまざまなモダリティとドメインで多数の高度な AI タスクをカバーし、言語、視覚、発話、およびその他の困難なタスクで印象的な結果を達成し、新しい道を切り開くことができます。
AGIに向かって。

要約(オリジナル)

Solving complicated AI tasks with different domains and modalities is a key step toward artificial general intelligence (AGI). While there are abundant AI models available for different domains and modalities, they cannot handle complicated AI tasks. Considering large language models (LLMs) have exhibited exceptional ability in language understanding, generation, interaction, and reasoning, we advocate that LLMs could act as a controller to manage existing AI models to solve complicated AI tasks and language could be a generic interface to empower this. Based on this philosophy, we present HuggingGPT, a system that leverages LLMs (e.g., ChatGPT) to connect various AI models in machine learning communities (e.g., HuggingFace) to solve AI tasks. Specifically, we use ChatGPT to conduct task planning when receiving a user request, select models according to their function descriptions available in HuggingFace, execute each subtask with the selected AI model, and summarize the response according to the execution results. By leveraging the strong language capability of ChatGPT and abundant AI models in HuggingFace, HuggingGPT is able to cover numerous sophisticated AI tasks in different modalities and domains and achieve impressive results in language, vision, speech, and other challenging tasks, which paves a new way towards AGI.

arxiv情報

著者 Yongliang Shen,Kaitao Song,Xu Tan,Dongsheng Li,Weiming Lu,Yueting Zhuang
発行日 2023-03-30 17:48:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク