要約
マルチモーダル知識ベースとマルチモーダル情報処理に関する研究を強化するために、マルチモーダル知識ベース(MKB)を使用したマルチモーダルエンティティタグ付け(MET)と呼ばれる新しいタスクを提案します。
また、既存のMKBを使用して、問題のデータセットを開発します。
MKBには、エンティティとそれに関連するテキストおよび画像があります。
METでは、テキストと画像のペアが与えられると、MKBの情報を使用して、テキストと画像のペアの関連エンティティを自動的に識別します。
情報検索パラダイムを使用してタスクを解決し、NLPおよびCVの最先端の方法を使用していくつかのベースラインを実装します。
広範な実験を行い、実験結果を分析します。
結果は、タスクが困難であることを示していますが、現在のテクノロジーは比較的高いパフォーマンスを達成できます。
今後の研究のために、データセット、コード、モデルをリリースします。
要約(オリジナル)
To enhance research on multimodal knowledge base and multimodal information processing, we propose a new task called multimodal entity tagging (MET) with a multimodal knowledge base (MKB). We also develop a dataset for the problem using an existing MKB. In an MKB, there are entities and their associated texts and images. In MET, given a text-image pair, one uses the information in the MKB to automatically identify the related entity in the text-image pair. We solve the task by using the information retrieval paradigm and implement several baselines using state-of-the-art methods in NLP and CV. We conduct extensive experiments and make analyses on the experimental results. The results show that the task is challenging, but current technologies can achieve relatively high performance. We will release the dataset, code, and models for future research.
arxiv情報
著者 | Hao Peng,Hang Li,Lei Hou,Juanzi Li,Chao Qiao |
発行日 | 2022-07-28 07:56:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google