Grounding Language Models for Visual Entity Recognition

要約

視覚的エンティティ認識のための自己回帰モデルである AutoVER を紹介します。
私たちのモデルは、検索拡張制約付き生成を採用することで、自己回帰マルチモーダル大規模言語モデルを拡張します。
視覚的に状況に応じた推論を必要とするクエリで優れた性能を発揮しながら、ドメイン外のエンティティでのパフォーマンスの低下を軽減します。
私たちの方法は、外部検索装置を使用せずに、シーケンス間の目標と並行してハードネガティブペアで対照的にトレーニングすることにより、広大なラベル空間内の類似したエンティティを区別することを学習します。
推論中、取得された候補回答のリストは、無効なデコード パスを削除することにより、言語生成を明示的にガイドします。
提案された方法は、最近提案された Oven-Wiki ベンチマークのさまざまなデータセット分割にわたって大幅な改善を達成しました。
分割されたエンティティの精度は 32.7% から 61.5% に向上しました。
また、目に見えないクエリや 2 桁の大幅なマージンによるクエリ分割でも優れたパフォーマンスを示します。

要約(オリジナル)

We introduce AutoVER, an Autoregressive model for Visual Entity Recognition. Our model extends an autoregressive Multi-modal Large Language Model by employing retrieval augmented constrained generation. It mitigates low performance on out-of-domain entities while excelling in queries that require visually-situated reasoning. Our method learns to distinguish similar entities within a vast label space by contrastively training on hard negative pairs in parallel with a sequence-to-sequence objective without an external retriever. During inference, a list of retrieved candidate answers explicitly guides language generation by removing invalid decoding paths. The proposed method achieves significant improvements across different dataset splits in the recently proposed Oven-Wiki benchmark. Accuracy on the Entity seen split rises from 32.7% to 61.5%. It also demonstrates superior performance on the unseen and query splits by a substantial double-digit margin.

arxiv情報

著者 Zilin Xiao,Ming Gong,Paola Cascante-Bonilla,Xingyao Zhang,Jie Wu,Vicente Ordonez
発行日 2024-07-26 06:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク