要約
テキストからエンティティと関係をより適切に抽出するにはどうすればよいでしょうか?
画像とテキストでマルチモーダル抽出を使用すると、エンティティと関係に関するより多くの信号が取得され、グラフまたは階層融合を通じてそれらが調整され、抽出が容易になります。
さまざまな融合の試みにもかかわらず、これまでの研究では、NewsCLIPing など、多くのラベルのない画像とキャプションのペアが見落とされてきました。
この論文では、エンティティとオブジェクトおよび関係と画像の位置合わせのための革新的な事前トレーニング目標を提案し、画像からオブジェクトを抽出し、それらをソフト疑似ラベルのエンティティおよび関係プロンプトと位置合わせします。
これらのラベルは、事前トレーニング用の自己教師あり信号として使用され、エンティティと関係を抽出する機能を強化します。
3 つのデータセットの実験では、以前の SOTA と比較して平均 3.41% の F1 改善が示されました。
さらに、私たちの方法は以前のマルチモーダル融合と直交しており、これを以前のSOTA融合に使用すると、F1がさらに5.47%向上します。
要約(オリジナル)
How can we better extract entities and relations from text? Using multimodal extraction with images and text obtains more signals for entities and relations, and aligns them through graphs or hierarchical fusion, aiding in extraction. Despite attempts at various fusions, previous works have overlooked many unlabeled image-caption pairs, such as NewsCLIPing. This paper proposes innovative pre-training objectives for entity-object and relation-image alignment, extracting objects from images and aligning them with entity and relation prompts for soft pseudo-labels. These labels are used as self-supervised signals for pre-training, enhancing the ability to extract entities and relations. Experiments on three datasets show an average 3.41% F1 improvement over prior SOTA. Additionally, our method is orthogonal to previous multimodal fusions, and using it on prior SOTA fusions further improves 5.47% F1.
arxiv情報
著者 | Xuming Hu,Junzhe Chen,Aiwei Liu,Shiao Meng,Lijie Wen,Philip S. Yu |
発行日 | 2023-10-25 17:51:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google