InstructSeq: Unifying Vision Tasks with Instruction-conditioned Multi-modal Sequence Generation

要約

自然言語命令を通じて指定されたタスクをモデルに動的に実行できるようにすることは、より有能で汎用的な人工知能への有望な道筋となります。
この研究では、柔軟な自然言語制御と視覚データとテキスト データの両方の処理を通じて多様な視覚タスクを統合する、命令条件付きマルチモーダル モデリング フレームワークである InstructSeq を紹介します。
InstructSeq は、ビジュアル、言語、およびシーケンシャル モデリングを含むマルチモーダル トランスフォーマー アーキテクチャを採用しています。
画像の特徴を抽出するためにビジュアル エンコーダを利用し、命令をエンコードするためにテキスト エンコーダを利用します。
自己回帰トランスフォーマーは表現を融合し、逐次的なタスク出力を生成します。
LLM で生成された自然言語命令を使用してトレーニングすることにより、InstructSeq は視覚的なタスクを指定するための自由形式の命令を深く理解できるようになります。
これにより、柔軟な自然な命令を使用して機能を指示するための直感的なインターフェイスが提供されます。
InstructSeq は、タスク固有の調整を行わなくても、セマンティック セグメンテーション、参照表現のセグメンテーション/理解、および画像キャプションで魅力的なパフォーマンスを実現します。
柔軟な制御とマルチタスクの統合により、モデルに人間に近い多用途性とコンピューター ビジョンの汎用性が与えられます。
コードは https://github.com/rongyaofang/InstructSeq で間もなく公開される予定です。

要約(オリジナル)

Empowering models to dynamically accomplish tasks specified through natural language instructions represents a promising path toward more capable and general artificial intelligence. In this work, we introduce InstructSeq, an instruction-conditioned multi-modal modeling framework that unifies diverse vision tasks through flexible natural language control and handling of both visual and textual data. InstructSeq employs a multimodal transformer architecture encompassing visual, language, and sequential modeling. We utilize a visual encoder to extract image features and a text encoder to encode instructions. An autoregressive transformer fuses the representations and generates sequential task outputs. By training with LLM-generated natural language instructions, InstructSeq acquires a strong comprehension of free-form instructions for specifying visual tasks. This provides an intuitive interface for directing capabilities using flexible natural instructions. Without any task-specific tuning, InstructSeq achieves compelling performance on semantic segmentation, referring expression segmentation/comprehension, and image captioning. The flexible control and multi-task unification empower the model with more human-like versatility and generalizability for computer vision. The code will be released soon at https://github.com/rongyaofang/InstructSeq.

arxiv情報

著者 Rongyao Fang,Shilin Yan,Zhaoyang Huang,Jingqiu Zhou,Hao Tian,Jifeng Dai,Hongsheng Li
発行日 2023-11-30 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク