要約
テキストと視覚データの組み合わせで大規模言語モデル (LLM) を強化し、科学データの視覚化における正確な質問応答を可能にし、会話型の視覚化を可能にする方法を紹介します。
LLM は、コンテキストに応じた視覚情報が不足しているため、視覚的なデータの対話などのタスクに苦労します。
この問題は、ビジュアライゼーションとデータセットのテキスト説明をビジュアライゼーションのスナップショットとマージすることで解決します。
これらの重要な機能を構造化テキスト ファイルに抽出します。このファイルは、非常にコンパクトでありながら、微調整することなく、コンテキスト情報で LLM を適切に拡張するのに十分な説明を備えています。
このアプローチは、テキストによる説明が関連付けられている限り、最終的にレンダリングされているあらゆるビジュアライゼーションに適用できます。
要約(オリジナル)
We present a method for augmenting a Large Language Model (LLM) with a combination of text and visual data to enable accurate question answering in visualization of scientific data, making conversational visualization possible. LLMs struggle with tasks like visual data interaction, as they lack contextual visual information. We address this problem by merging a text description of a visualization and dataset with snapshots of the visualization. We extract their essential features into a structured text file, highly compact, yet descriptive enough to appropriately augment the LLM with contextual information, without any fine-tuning. This approach can be applied to any visualization that is already finally rendered, as long as it is associated with some textual description.
arxiv情報
著者 | Omar Mena,Alexandre Kouyoumdjian,Lonni Besançon,Michael Gleicher,Ivan Viola,Anders Ynnerman |
発行日 | 2025-01-16 13:16:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google