Enhancing Explainability in Multimodal Large Language Models Using Ontological Context

要約

最近、マルチモーダル大規模言語モデル (MLLM) への関心が高まっています。これは、画像やテキストなどのさまざまなモダリティを統合するさまざまなタスクや、画像キャプションや視覚的な質問応答などのアプリケーションにおけるその顕著な可能性のためです。
ただし、このようなモデルは、特にドメイン固有のアプリケーションにおいて、特定の視覚的な概念やクラスを正確にキャプションおよび解釈する際に依然として課題に直面しています。
私たちは、ドメイン知識をオントロジーの形で統合することで、これらの問題に大幅に対処できると主張します。
この研究では、概念実証として、オントロジーと MLLM を組み合わせて植物の病気の画像を分類する新しいフレームワークを提案します。
私たちの方法では、既存の病気オントロジーからの植物の病気に関する概念を使用して、MLLM をクエリし、画像から関連する視覚概念を抽出します。
次に、オントロジーの推論機能を使用して、特定された概念に従って疾患を分類します。
疾患を説明する概念をモデルが正確に使用していることを確認することは、ドメイン固有のアプリケーションでは非常に重要です。
オントロジーを採用することで、この整合性の検証を支援できます。
さらに、オントロジーの推論機能を使用すると、意思決定プロセスにおける透明性、説明可能性、信頼性が向上すると同時に、MLLM による概念の注釈がオントロジー内の注釈と一致しているかどうかをチェックし、エラーの背後にある理論的根拠を表示することで判断者の役割を果たします。
私たちのフレームワークは、さまざまなよく知られた MLLM を使用した実証研究によって裏付けられた、オントロジーと MLLM を相乗させるための新しい方向性を提供します。

要約(オリジナル)

Recently, there has been a growing interest in Multimodal Large Language Models (MLLMs) due to their remarkable potential in various tasks integrating different modalities, such as image and text, as well as applications such as image captioning and visual question answering. However, such models still face challenges in accurately captioning and interpreting specific visual concepts and classes, particularly in domain-specific applications. We argue that integrating domain knowledge in the form of an ontology can significantly address these issues. In this work, as a proof of concept, we propose a new framework that combines ontology with MLLMs to classify images of plant diseases. Our method uses concepts about plant diseases from an existing disease ontology to query MLLMs and extract relevant visual concepts from images. Then, we use the reasoning capabilities of the ontology to classify the disease according to the identified concepts. Ensuring that the model accurately uses the concepts describing the disease is crucial in domain-specific applications. By employing an ontology, we can assist in verifying this alignment. Additionally, using the ontology’s inference capabilities increases transparency, explainability, and trust in the decision-making process while serving as a judge by checking if the annotations of the concepts by MLLMs are aligned with those in the ontology and displaying the rationales behind their errors. Our framework offers a new direction for synergizing ontologies and MLLMs, supported by an empirical study using different well-known MLLMs.

arxiv情報

著者 Jihen Amara,Birgitta König-Ries,Sheeba Samuel
発行日 2024-09-27 13:44:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク