要約
実際の画像がどのように見えるかを測定することは、人工知能研究の複雑なタスクです。
たとえば、砂漠で掃除機を塗った少年の画像は、常識に違反します。
大規模なビジョン言語モデル(LVLMS)とトランスベースのエンコーダを使用して、画像の常識の一貫性を評価するために、見た目ガラス(TLG)を通して呼び出す新しい方法を紹介します。
LVLMを活用してこれらの画像からアトミックファクトを抽出することにより、正確な事実の組み合わせを取得します。
エンコードされたアトミックファクトを介して、コンパクトな注意プーリング分類器を微調整します。
私たちのTLGは、フープで新しい最先端のパフォーマンスを達成しました!
コンパクトな微調整コンポーネントを活用しながら、奇妙なデータセット。
要約(オリジナル)
Measuring how real images look is a complex task in artificial intelligence research. For example, an image of a boy with a vacuum cleaner in a desert violates common sense. We introduce a novel method, which we call Through the Looking Glass (TLG), to assess image common sense consistency using Large Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging LVLMs to extract atomic facts from these images, we obtain a mix of accurate facts. We proceed by fine-tuning a compact attention-pooling classifier over encoded atomic facts. Our TLG has achieved a new state-of-the-art performance on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning component.
arxiv情報
著者 | Elisei Rykov,Kseniia Petrushina,Kseniia Titova,Anton Razzhigaev,Alexander Panchenko,Vasily Konovalov |
発行日 | 2025-05-12 16:12:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google