要約
大規模な言語モデル(LLM)画像認識は、画像からデータを抽出するための強力なツールですが、精度はプロンプトに十分なキューを提供することに依存します – 特殊なタスクにドメインの専門家が必要です。
Evolutionを使用して正確な認識(CLEAR)を使用してキュー学習を導入します。これは、LLMと進化的計算の組み合わせを使用して、画像の特殊な機能の認識が改善されるようにキューを生成および最適化します。
これは、新しいドメイン固有の表現を自動生成し、それを使用して遺伝的アルゴリズムを使用して適切なテキストキューを最適化することにより達成します。
建物の内部および外部画像から持続可能性データを識別するという現実世界のタスクに明確に適用されます。
固定長と比較して可変長表現を使用する効果を調査し、カテゴリから実数の推定値から実際の推定値から実際の推定値からリファクタリングすることで、LLMの一貫性をどのように改善できるかを示します。
エラー率が最大2桁改善され、アブレーション研究を証明するソリューションの合併症を伴う、すべてのタスクで、専門家の人間認識と人間承認のプロンプトと比較して、明確な精度がより高い精度を可能にすることを示します。
要約(オリジナル)
Large Language Model (LLM) image recognition is a powerful tool for extracting data from images, but accuracy depends on providing sufficient cues in the prompt – requiring a domain expert for specialized tasks. We introduce Cue Learning using Evolution for Accurate Recognition (CLEAR), which uses a combination of LLMs and evolutionary computation to generate and optimize cues such that recognition of specialized features in images is improved. It achieves this by auto-generating a novel domain-specific representation and then using it to optimize suitable textual cues with a genetic algorithm. We apply CLEAR to the real-world task of identifying sustainability data from interior and exterior images of buildings. We investigate the effects of using a variable-length representation compared to fixed-length and show how LLM consistency can be improved by refactoring from categorical to real-valued estimates. We show that CLEAR enables higher accuracy compared to expert human recognition and human-authored prompts in every task with error rates improved by up to two orders of magnitude and an ablation study evincing solution concision.
arxiv情報
著者 | Peter J. Bentley,Soo Ling Lim,Fuyuki Ishikawa |
発行日 | 2025-01-30 17:13:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google