Caption Anything: Interactive Image Description with Diverse Multimodal Controls

要約

タイトル:Caption Anything: Interactive Image Description with Diverse Multimodal Controls(Caption Anything:多様なマルチモーダルコントロールを備えたインタラクティブな画像説明)

要約:
– コントローラブルな画像のキャプション付けは、画像を人間の意図に従って自然言語で説明する多様性のあるマルチモーダルトピックである。
– 最新の手法は、入力コントロールと出力キャプションの注釈付きのペアで訓練されています。
– しかし、そのような充分に注釈がついたマルチモーダルデータが不足しているため、それらの使用可能性やスケーラビリティが大幅に制限されています。
– ユニモーダルな指示に従うファウンデーションモデルを活用することは、より広範なデータソースの利点がある有望な代替手段です。
– 本論文では、Caption AnyThing(CAT)を提供し、広範なマルチモデルコントロールをサポートするファウンデーションモデル拡張画像説明フレームワークを紹介します。
– Extensive case studies demonstrate the user intention alignment capabilities of our framework, shedding light on effective user interaction modeling in vision-language applications. 我々のフレームワークのユーザー意図の整列化能力を示す広範なケーススタディがあり、 vision-languageアプリケーションにおける効果的なユーザーインタラクションモデリングを明らかにしています。
– 私たちのコードは公式に https://github.com/ttengwang/Caption-Anything で利用可能です。

要約(オリジナル)

Controllable image captioning is an emerging multimodal topic that aims to describe the image with natural language following human purpose, $\textit{e.g.}$, looking at the specified regions or telling in a particular text style. State-of-the-art methods are trained on annotated pairs of input controls and output captions. However, the scarcity of such well-annotated multimodal data largely limits their usability and scalability for interactive AI systems. Leveraging unimodal instruction-following foundation models is a promising alternative that benefits from broader sources of data. In this paper, we present Caption AnyThing (CAT), a foundation model augmented image captioning framework supporting a wide range of multimodel controls: 1) visual controls, including points, boxes, and trajectories; 2) language controls, such as sentiment, length, language, and factuality. Powered by Segment Anything Model (SAM) and ChatGPT, we unify the visual and language prompts into a modularized framework, enabling the flexible combination between different controls. Extensive case studies demonstrate the user intention alignment capabilities of our framework, shedding light on effective user interaction modeling in vision-language applications. Our code is publicly available at https://github.com/ttengwang/Caption-Anything.

arxiv情報

著者 Teng Wang,Jinrui Zhang,Junjie Fei,Hao Zheng,Yunlong Tang,Zhe Li,Mingqi Gao,Shanshan Zhao
発行日 2023-05-08 02:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク