要約
Visual Entity Linking (VEL) は、画像中の領域と知識ベース (KB) 中の対応する実体を結びつけるタスクであり、画像検索、画像キャプション、視覚的質問応答などの多くのコンピュータビジョンタスクに有益である。しかし、既存のVELタスクは、マルチモーダルリンクを補完するためにテキストデータに依存するか、オブジェクトと一般的なエンティティをリンクするだけであり、大量の画像データに対して名前付きエンティティリンクを実行することはできない。本論文では、入力が画像のみからなる純粋に視覚に基づく名前付き固有表現リンク(VNEL)タスクを考える。このタスクは、画像中の注目すべきオブジェクト(すなわち、視覚的実体言及)を特定し、KB中の対応する名前付き実体にリンクするものである。各エンティティは豊富な視覚情報とテキスト情報を含んでいることが多いため、我々は3種類のサブタスク、すなわち、視覚から視覚へのエンティティリンク(V2VEL)、視覚からテキストへのエンティティリンク(V2TEL)、視覚から視覚・テキストへのエンティティリンク(V2VTEL)を提案する。さらに、WIKIPersonと呼ばれる、人間による注釈付きの高品質な視覚的人物リンクデータセットを提示する。WIKIPersonを基に、各サブタスクを解決するための一連のベースラインアルゴリズムを確立し、提案するデータセットの品質とベースライン手法の有効性を検証するための実験を行う。本研究は、今後、VNELに関する研究を募集する際の参考となることを想定している。コードとデータセットは、https://github.com/ict-bigdatalab/VNEL で公開されています。
要約(オリジナル)
Visual Entity Linking (VEL) is a task to link regions of images with their corresponding entities in Knowledge Bases (KBs), which is beneficial for many computer vision tasks such as image retrieval, image caption, and visual question answering. While existing tasks in VEL either rely on textual data to complement a multi-modal linking or only link objects with general entities, which fails to perform named entity linking on large amounts of image data. In this paper, we consider a purely Visual-based Named Entity Linking (VNEL) task, where the input only consists of an image. The task is to identify objects of interest (i.e., visual entity mentions) in images and link them to corresponding named entities in KBs. Since each entity often contains rich visual and textual information in KBs, we thus propose three different sub-tasks, i.e., visual to visual entity linking (V2VEL), visual to textual entity linking (V2TEL), and visual to visual-textual entity linking (V2VTEL). In addition, we present a high-quality human-annotated visual person linking dataset, named WIKIPerson. Based on WIKIPerson, we establish a series of baseline algorithms for the solution of each sub-task, and conduct experiments to verify the quality of proposed datasets and the effectiveness of baseline methods. We envision this work to be helpful for soliciting more works regarding VNEL in the future. The codes and datasets are publicly available at https://github.com/ict-bigdatalab/VNEL.
arxiv情報
著者 | Wenxiang Sun,Yixing Fan,Jiafeng Guo,Ruqing Zhang,Xueqi Cheng |
発行日 | 2022-11-09 13:27:50+00:00 |
arxivサイト | arxiv_id(pdf) |