LM4LV: A Frozen Large Language Model for Low-level Vision Tasks

要約

大規模言語モデル (LLM) の成功により、マルチモダリティ大規模言語モデル (MLLM) という新しい研究トレンドが促進され、コンピューター ビジョンのさまざまな分野のパラダイムが変化しました。
MLLM は、VQA やテキストから画像への変換など、数多くの高レベルの視覚タスクや視覚言語タスクで有望な結果を示していますが、低レベルの視覚タスクが MLLM からどのように恩恵を受けるかを実証した研究はありません。
現在の MLLM のほとんどは、ビジョン モジュールの設計により低レベルの機能を認識できず、本質的に低レベルのビジョン タスクを解決できないことがわかりました。
この作業では、$\textbf{LM4LV}$ を目的としています。これは、FROZEN LLM がマルチモーダル データや事前のデータがなくても、さまざまな低レベルの視覚タスクを解決できるようにするフレームワークです。
これは、低レベル視覚における LLM の強力な可能性を示しており、MLLM と低レベル視覚タスクの間のギャップを埋めます。
私たちは、この研究が LLM に対する新たな視点を呼び起こし、そのメカニズムについてのより深い理解を促すことができることを願っています。
コードは https://github.com/bytetriper/LM4LV で入手できます。

要約(オリジナル)

The success of large language models (LLMs) has fostered a new research trend of multi-modality large language models (MLLMs), which changes the paradigm of various fields in computer vision. Though MLLMs have shown promising results in numerous high-level vision and vision-language tasks such as VQA and text-to-image, no works have demonstrated how low-level vision tasks can benefit from MLLMs. We find that most current MLLMs are blind to low-level features due to their design of vision modules, thus are inherently incapable for solving low-level vision tasks. In this work, we purpose $\textbf{LM4LV}$, a framework that enables a FROZEN LLM to solve a range of low-level vision tasks without any multi-modal data or prior. This showcases the LLM’s strong potential in low-level vision and bridges the gap between MLLMs and low-level vision tasks. We hope this work can inspire new perspectives on LLMs and deeper understanding of their mechanisms. Code is available at https://github.com/bytetriper/LM4LV.

arxiv情報

著者 Boyang Zheng,Jinjin Gu,Shijun Li,Chao Dong
発行日 2024-06-11 15:42:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク