要約
近年の視覚言語学習(VL)の進歩により、視覚と言語の協働を必要とする様々なタスクを解決することができる、いくつかの素晴らしい実装を提供する複数のモデルや技術が開発されました。しかし、VL学習の事前学習に用いられる現在のデータセットには、限られた量の視覚・言語知識しか含まれていないため、多くのVLモデルの汎化能力は著しく制限されています。知識グラフ(KG)や大規模言語モデル(LLM)などの外部知識源は、不足する知識を補うことでこのような汎化ギャップをカバーすることができ、その結果、ハイブリッドアーキテクチャが出現しています。本調査では、このようなハイブリッドアプローチの恩恵を受けたタスクを分析する。さらに、既存の知識ソースとタイプを分類し、KG対LLMのジレンマと将来のハイブリッドアプローチへの潜在的影響に関する議論に進む。
要約(オリジナル)
Recent advancements in visiolinguistic (VL) learning have allowed the development of multiple models and techniques that offer several impressive implementations, able to currently resolve a variety of tasks that require the collaboration of vision and language. Current datasets used for VL pre-training only contain a limited amount of visual and linguistic knowledge, thus significantly limiting the generalization capabilities of many VL models. External knowledge sources such as knowledge graphs (KGs) and Large Language Models (LLMs) are able to cover such generalization gaps by filling in missing knowledge, resulting in the emergence of hybrid architectures. In the current survey, we analyze tasks that have benefited from such hybrid approaches. Moreover, we categorize existing knowledge sources and types, proceeding to discussion regarding the KG vs LLM dilemma and its potential impact to future hybrid approaches.
arxiv情報
著者 | Maria Lymperaiou,Giorgos Stamou |
発行日 | 2023-03-04 13:12:18+00:00 |
arxivサイト | arxiv_id(pdf) |