Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification

要約

ドメイン固有の知識は、さまざまな視覚タスクに対処するのに大きく貢献できます。
ただし、そのような知識の生成には、かなりの人的労力と時間のコストがかかります。
この研究では、セマンティック埋め込みを通じてドメイン固有の情報を生成および提供する大規模言語モデル (LLM) の可能性を調査します。
これを実現するために、LLM は、ビジョンベースのゼロショット オブジェクト状態分類タスクのコンテキストでナレッジ グラフと事前トレーニングされたセマンティック ベクトルを利用するパイプラインに統合されます。
当社では、広範なアブレーション研究を通じて LLM の動作を徹底的に検査しています。
私たちの調査結果では、LLM ベースのエンベディングを汎用の事前トレーニング済みエンベディングと組み合わせて統合すると、大幅なパフォーマンスの向上につながることが明らかになりました。
このアブレーション研究から洞察を引き出し、競合モデルとの比較分析を実施し、それによって提案されたアプローチによって達成される最先端のパフォーマンスを強調します。

要約(オリジナル)

Domain-specific knowledge can significantly contribute to addressing a wide variety of vision tasks. However, the generation of such knowledge entails considerable human labor and time costs. This study investigates the potential of Large Language Models (LLMs) in generating and providing domain-specific information through semantic embeddings. To achieve this, an LLM is integrated into a pipeline that utilizes Knowledge Graphs and pre-trained semantic vectors in the context of the Vision-based Zero-shot Object State Classification task. We thoroughly examine the behavior of the LLM through an extensive ablation study. Our findings reveal that the integration of LLM-based embeddings, in combination with general-purpose pre-trained embeddings, leads to substantial performance improvements. Drawing insights from this ablation study, we conduct a comparative analysis against competing models, thereby highlighting the state-of-the-art performance achieved by the proposed approach.

arxiv情報

著者 Filippos Gouidis,Katerina Papantoniou,Konstantinos Papoutsakis,Theodore Patkos,Antonis Argyros,Dimitris Plexousakis
発行日 2024-12-11 18:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク