Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language


私たちは、大規模言語モデル (LLM) の力を活用してコンピューター ビジョンの問題に取り組むためのモジュール型アプローチである LENS を提案します。
私たちのシステムは、言語モデルを使用して、画像に関する網羅的な情報を提供する一連の独立した高度に記述的なビジョン モジュールからの出力を推論します。
LENS は既製の LLM に適用でき、LENS を備えた LLM は、マルチモーダル トレーニングをまったく行わなくても、はるかに大規模で洗練されたシステムに対して高い競争力を発揮することがわかりました。 でコードをオープンソース化し、インタラクティブなデモを提供します。


We propose LENS, a modular approach for tackling computer vision problems by leveraging the power of large language models (LLMs). Our system uses a language model to reason over outputs from a set of independent and highly descriptive vision modules that provide exhaustive information about an image. We evaluate the approach on pure computer vision settings such as zero- and few-shot object recognition, as well as on vision and language problems. LENS can be applied to any off-the-shelf LLM and we find that the LLMs with LENS perform highly competitively with much bigger and much more sophisticated systems, without any multimodal training whatsoever. We open-source our code at and provide an interactive demo.


著者 William Berrios,Gautam Mittal,Tristan Thrush,Douwe Kiela,Amanpreet Singh
発行日 2023-06-28 17:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV パーマリンク