Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent

要約

マルチモーダル AI エージェントは、自然言語、視覚、音声入力を含むさまざまなタイプのデータを処理および学習して、アクションを通知する機能を特徴としています。
GPT-4V などの視覚データを組み込んだ大規模言語モデルの進歩にもかかわらず、画像ベースのデータを AI エージェントにとって実用的な結果に効果的に変換することは依然として困難です。
このペーパーでは、AI エージェント アプリケーション向けに特別に設計された機能トークンの概念を組み込んだマルチモーダル モデルを紹介します。
エッジ デバイスとの互換性を確保するために、モデルは 1B 未満のパラメータのコンパクトなサイズに最適化されています。
GPT-4 と同様に、私たちのモデルは英語と中国語の両方を処理できます。
このモデルが、Raspberry Pi のような制約のあるものを含む、幅広いエッジ デバイス上で効率的に動作できることを実証します。

要約(オリジナル)

A multimodal AI agent is characterized by its ability to process and learn from various types of data, including natural language, visual, and audio inputs, to inform its actions. Despite advancements in large language models that incorporate visual data, such as GPT-4V, effectively translating image-based data into actionable outcomes for AI agents continues to be challenging. In this paper, we introduce a multimodal model that incorporates the concept of functional token specifically designed for AI agent applications. To ensure compatibility with edge devices, our model is optimized to a compact size of less than 1B parameters. Like GPT-4, our model can process both English and Chinese. We demonstrate that this model is capable of operating efficiently on a wide range of edge devices, including as constrained as a Raspberry Pi.

arxiv情報

著者 Wei Chen,Zhiyuan Li
発行日 2024-04-17 15:07:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク