HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

要約

さまざまなドメインやモダリティを伴う複雑な AI タスクを解決することは、汎用人工知能への重要なステップです。
さまざまなドメインやモダリティに利用できる AI モデルは豊富にありますが、複雑な AI タスクを処理することはできません。
大規模言語モデル (LLM) が言語の理解、生成、対話、および推論において優れた能力を示していることを考慮すると、LLM が既存の AI モデルを管理するコントローラーとして機能して複雑な AI タスクを解決し、言語がその機能を強化するための汎用インターフェースになる可能性があると主張します。
これ。
この哲学に基づいて、LLM (ChatGPT など) を活用して機械学習コミュニティ (Hugging Face など) のさまざまな AI モデルを接続して AI タスクを解決するフレームワークである HuggingGPT を紹介します。
具体的には、ユーザーからのリクエストを受け付けた際にChatGPTを利用してタスクプランニングを行い、Hugging Faceで提供される機能説明に応じてモデルを選択し、選択したAIモデルで各サブタスクを実行し、実行結果に応じてレスポンスを集計します。
ChatGPT の強力な言語機能と Hugging Face の豊富な AI モデルを活用することで、HuggingGPT は、さまざまなモダリティやドメインで多数の高度な AI タスクをカバーし、言語、視覚、音声、その他の困難なタスクで印象的な結果を達成することができ、これにより新しい世界が開かれます。
汎用人工知能への道。

要約(オリジナル)

Solving complicated AI tasks with different domains and modalities is a key step toward artificial general intelligence. While there are abundant AI models available for different domains and modalities, they cannot handle complicated AI tasks. Considering large language models (LLMs) have exhibited exceptional ability in language understanding, generation, interaction, and reasoning, we advocate that LLMs could act as a controller to manage existing AI models to solve complicated AI tasks and language could be a generic interface to empower this. Based on this philosophy, we present HuggingGPT, a framework that leverages LLMs (e.g., ChatGPT) to connect various AI models in machine learning communities (e.g., Hugging Face) to solve AI tasks. Specifically, we use ChatGPT to conduct task planning when receiving a user request, select models according to their function descriptions available in Hugging Face, execute each subtask with the selected AI model, and summarize the response according to the execution results. By leveraging the strong language capability of ChatGPT and abundant AI models in Hugging Face, HuggingGPT is able to cover numerous sophisticated AI tasks in different modalities and domains and achieve impressive results in language, vision, speech, and other challenging tasks, which paves a new way towards artificial general intelligence.

arxiv情報

著者 Yongliang Shen,Kaitao Song,Xu Tan,Dongsheng Li,Weiming Lu,Yueting Zhuang
発行日 2023-05-25 15:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク