AutoMMLab: Automatically Generating Deployable Models from Language Instructions for Computer Vision Tasks

要約

自動機械学習 (AutoML) は、機械学習の開発プロセスを自動化するために設計された技術の集合です。
従来の AutoML アプローチは、モデル開発のいくつかの重要なステップ (ハイパーパラメーターの最適化など) に適用されて成功していますが、エンドツーエンドのモデル作成ワークフロー全体を自動化する AutoML システムが不足しています。
この空白を埋めるために、ユーザーの言語指示に従ってコンピューター ビジョン タスクのモデル作成ワークフロー全体を自動化する、LLM を利用した汎用 AutoML システムである AutoMMLab を紹介します。
提案されている AutoMMLab システムは、AutoML と OpenMMLab コミュニティを接続するブリッジとして LLM を効果的に採用しており、専門家でなくても、ユーザーフレンドリーな言語インターフェイスを介してタスク固有のモデルを簡単に構築できるようにします。
具体的には、ユーザーのリクエストを理解してパイプライン全体をスケジュールするための RU-LLaMA を提案し、最適なハイパーパラメーターを効果的に検索するための HPO-LLaMA と呼ばれる新しい LLM ベースのハイパーパラメーター オプティマイザーを提案します。
実験の結果、当社の AutoMMLab システムは多用途であり、分類、検出、セグメンテーション、キーポイント推定など、主流のタスクを幅広くカバーできることがわかりました。
さらに、エンドツーエンドのプロンプトベースのモデル トレーニング パイプラインの主要コンポーネントを研究するための、LAMP と呼ばれる新しいベンチマークを開発します。
コード、モデル、データを公開します。

要約(オリジナル)

Automated machine learning (AutoML) is a collection of techniques designed to automate the machine learning development process. While traditional AutoML approaches have been successfully applied in several critical steps of model development (e.g. hyperparameter optimization), there lacks a AutoML system that automates the entire end-to-end model production workflow. To fill this blank, we present AutoMMLab, a general-purpose LLM-empowered AutoML system that follows user’s language instructions to automate the whole model production workflow for computer vision tasks. The proposed AutoMMLab system effectively employs LLMs as the bridge to connect AutoML and OpenMMLab community, empowering non-expert individuals to easily build task-specific models via a user-friendly language interface. Specifically, we propose RU-LLaMA to understand users’ request and schedule the whole pipeline, and propose a novel LLM-based hyperparameter optimizer called HPO-LLaMA to effectively search for the optimal hyperparameters. Experiments show that our AutoMMLab system is versatile and covers a wide range of mainstream tasks, including classification, detection, segmentation and keypoint estimation. We further develop a new benchmark, called LAMP, for studying key components in the end-to-end prompt-based model training pipeline. Code, model, and data will be released.

arxiv情報

著者 Zekang Yang,Wang Zeng,Sheng Jin,Chen Qian,Ping Luo,Wentao Liu
発行日 2024-02-23 14:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク