要約
この論文では、少数ショット セグメンテーションで大規模言語モデル (LLM) を活用する最初の試みである LLaFS を提案します。
注釈付きのサポート画像からの限られた偏った情報のみに依存する従来の数ショット セグメンテーション手法とは対照的に、LLaFS は LLM によって得られた膨大な事前知識を効果的な補足として活用し、LLM を直接使用して画像を数ショットでセグメント化します。
ショットの仕方。
テキストベースの LLM が画像関連のタスクを処理できるようにするために、LLM がポリゴンとして表現されるセグメンテーション結果を生成できるようにする入力命令を慎重に設計し、人間の視覚メカニズムをシミュレートしてマルチモーダルを提供する領域属性テーブルを提案します。
ガイダンス。
また、疑似サンプルを合成し、事前トレーニングにカリキュラム学習を使用してデータを強化し、より優れた最適化を実現します。
LLaFS は複数のデータセットで最先端の結果を達成し、数ショットのコンピューター ビジョン タスクに LLM を使用する可能性を示しています。
コードは https://github.com/lanyunzhu99/LLaFS で入手できます。
要約(オリジナル)
This paper proposes LLaFS, the first attempt to leverage large language models (LLMs) in few-shot segmentation. In contrast to the conventional few-shot segmentation methods that only rely on the limited and biased information from the annotated support images, LLaFS leverages the vast prior knowledge gained by LLM as an effective supplement and directly uses the LLM to segment images in a few-shot manner. To enable the text-based LLM to handle image-related tasks, we carefully design an input instruction that allows the LLM to produce segmentation results represented as polygons, and propose a region-attribute table to simulate the human visual mechanism and provide multi-modal guidance. We also synthesize pseudo samples and use curriculum learning for pretraining to augment data and achieve better optimization. LLaFS achieves state-of-the-art results on multiple datasets, showing the potential of using LLMs for few-shot computer vision tasks. Code will be available at https://github.com/lanyunzhu99/LLaFS.
arxiv情報
著者 | Lanyun Zhu,Tianrun Chen,Deyi Ji,Jieping Ye,Jun Liu |
発行日 | 2023-11-28 16:31:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google