要約
マルチモーダル基盤モデルの最近の進歩により、以前はテキストのみだったラージ言語モデル (LLM) が進化して視覚入力を組み込むようになり、視覚化におけるさまざまなアプリケーションに前例のない機会が開かれました。
私たちの研究では、マルチモーダル LLM の視覚認識能力を利用して、自然言語を通じてユーザー定義の視覚化目標を解釈して達成できる自律視覚化エージェント (AVA) を開発することを検討しています。
我々は、AVA 設計のための最初のフレームワークを提案し、提案されたパラダイムの一般的な適用可能性を実証することを目的としたいくつかの使用シナリオを提示します。
視覚認識の追加により、AVA は、視覚化出力を微調整するための知識や専門知識が不足している可能性がある分野の専門家にとって、仮想視覚化アシスタントとして機能することができます。
私たちの予備調査と概念実証エージェントは、適切な視覚化パラメーターの選択で以前の視覚出力の解釈が必要な場合に、このアプローチが広く適用できることを示唆しています。
AI 研究、医療視覚化、放射線学の専門家との非構造化インタビューからのフィードバックが組み込まれており、AVA の実用性と可能性が強調されています。
私たちの研究は、AVA が高レベルの視覚化目標を達成できるインテリジェントな視覚化システムを設計するための一般的なパラダイムを表しており、将来のエキスパート レベルの視覚化エージェントの開発への道を開くことを示しています。
要約(オリジナル)
With recent advances in multi-modal foundation models, the previously text-only large language models (LLM) have evolved to incorporate visual input, opening up unprecedented opportunities for various applications in visualization. Our work explores the utilization of the visual perception ability of multi-modal LLMs to develop Autonomous Visualization Agents (AVAs) that can interpret and accomplish user-defined visualization objectives through natural language. We propose the first framework for the design of AVAs and present several usage scenarios intended to demonstrate the general applicability of the proposed paradigm. The addition of visual perception allows AVAs to act as the virtual visualization assistant for domain experts who may lack the knowledge or expertise in fine-tuning visualization outputs. Our preliminary exploration and proof-of-concept agents suggest that this approach can be widely applicable whenever the choices of appropriate visualization parameters require the interpretation of previous visual output. Feedback from unstructured interviews with experts in AI research, medical visualization, and radiology has been incorporated, highlighting the practicality and potential of AVAs. Our study indicates that AVAs represent a general paradigm for designing intelligent visualization systems that can achieve high-level visualization goals, which pave the way for developing expert-level visualization agents in the future.
arxiv情報
著者 | Shusen Liu,Haichao Miao,Zhimin Li,Matthew Olson,Valerio Pascucci,Peer-Timo Bremer |
発行日 | 2023-12-07 18:13:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google