Generative Multimodal Entity Linking

要約

マルチモーダル エンティティ リンク (MEL) は、マルチモーダル コンテキストを含むメンションをナレッジ ベースの参照先エンティティにマッピングするタスクです。
既存の MEL メソッドは主に、複雑なマルチモーダルな対話メカニズムの設計に焦点を当てており、すべてのモデル パラメーターを微調整する必要がありますが、これは法外にコストがかかり、大規模言語モデル (LLM) の時代には拡張が困難になる可能性があります。
この研究では、ターゲット エンティティ名を直接生成する、LLM に基づく生成マルチモーダル エンティティ リンク フレームワークである GEMEL を提案します。
私たちはビジョンと言語モデルを凍結したままにし、クロスモダリティインタラクションを可能にする機能マッパーのみをトレーニングします。
LLM を MEL タスクに適応させるために、マルチモーダル インスタンスをデモンストレーションとして取得することで、LLM のインコンテキスト学習機能を活用します。
広範な実験により、GEMEL は、モデル パラメーターのわずか約 0.3% を微調整するだけで、2 つの十分に確立された MEL データセットで最先端の結果を達成できることがわかりました (WikiDiverse で 7.7% の精度向上、WikiMEL で 8.8% の精度向上)。

パフォーマンスの向上は、LLM 予測の人気バイアスを軽減し、あまり一般的ではないエンティティを効果的に曖昧さなくすことで実現します。
さらなる分析により、GEMEL の汎用性と拡張性が検証されます。
私たちのフレームワークは既製の言語モデルと互換性があり、MEL タスクで LLM を利用するための効率的かつ一般的なソリューションへの道を開きます。

要約(オリジナル)

Multimodal Entity Linking (MEL) is the task of mapping mentions with multimodal contexts to the referent entities from a knowledge base. Existing MEL methods mainly focus on designing complex multimodal interaction mechanisms and require fine-tuning all model parameters, which can be prohibitively costly and difficult to scale in the era of Large Language Models (LLMs). In this work, we propose GEMEL, a Generative Multimodal Entity Linking framework based on LLMs, which directly generates target entity names. We keep the vision and language model frozen and only train a feature mapper to enable cross-modality interactions. To adapt LLMs to the MEL task, we leverage the in-context learning capability of LLMs by retrieving multimodal instances as demonstrations. Extensive experiments show that, with only ~0.3% of the model parameters fine-tuned, GEMEL achieves state-of-the-art results on two well-established MEL datasets (7.7% accuracy gains on WikiDiverse and 8.8% accuracy gains on WikiMEL). The performance gain stems from mitigating the popularity bias of LLM predictions and disambiguating less common entities effectively. Further analysis verifies the generality and scalability of GEMEL. Our framework is compatible with any off-the-shelf language model, paving the way towards an efficient and general solution for utilizing LLMs in the MEL task.

arxiv情報

著者 Senbao Shi,Zhenran Xu,Baotian Hu,Min Zhang
発行日 2024-03-19 12:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク