From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models

要約

チャート形式のデータ視覚化はデータ分析において極めて重要な役割を果たし、重要な洞察を提供し、情報に基づいた意思決定を支援します。
近年の大規模な基礎モデルの台頭により、チャートの自動理解が大幅に進歩しました。
大規模言語モデルなどの基盤モデルは、さまざまな自然言語処理タスクに革命をもたらし、チャート理解タスクへの適用が増えています。
この調査ペーパーは、これらの基礎モデルのコンテキスト内でのチャート理解における最近の発展、課題、および将来の方向性の包括的な概要を提供します。
チャートを理解するタスクを研究するために重要な基本的な構成要素を確認します。
さらに、さまざまなタスクとその評価指標、およびグラフとテキスト入力の両方のソースを調査します。
次に、分類ベースと生成ベースのアプローチの両方を含むさまざまなモデリング戦略と、チャートの理解パフォーマンスを向上させるツール拡張手法が検討されます。
さらに、各タスクの最先端のパフォーマンスについて議論し、パフォーマンスを向上させる方法について話し合います。
課題と将来の方向性が取り上げられ、ドメイン固有のグラフ、評価指標の開発における努力の欠如、エージェント指向の設定など、いくつかのトピックの重要性が強調されます。
この調査論文は、自然言語処理、コンピューター ビジョン、データ分析の分野の研究者や実務者にとって包括的なリソースとして機能し、大規模な基礎モデルを活用したチャート理解における将来の研究に貴重な洞察と方向性を提供します。
この論文で言及されている研究は、新たな研究とともに、https://github.com/khuangaf/Awesome-Chart-Understanding で継続的に更新されます。

要約(オリジナル)

Data visualization in the form of charts plays a pivotal role in data analysis, offering critical insights and aiding in informed decision-making. Automatic chart understanding has witnessed significant advancements with the rise of large foundation models in recent years. Foundation models, such as large language models, have revolutionized various natural language processing tasks and are increasingly being applied to chart understanding tasks. This survey paper provides a comprehensive overview of the recent developments, challenges, and future directions in chart understanding within the context of these foundation models. We review fundamental building blocks crucial for studying chart understanding tasks. Additionally, we explore various tasks and their evaluation metrics and sources of both charts and textual inputs. Various modeling strategies are then examined, encompassing both classification-based and generation-based approaches, along with tool augmentation techniques that enhance chart understanding performance. Furthermore, we discuss the state-of-the-art performance of each task and discuss how we can improve the performance. Challenges and future directions are addressed, highlighting the importance of several topics, such as domain-specific charts, lack of efforts in developing evaluation metrics, and agent-oriented settings. This survey paper serves as a comprehensive resource for researchers and practitioners in the fields of natural language processing, computer vision, and data analysis, providing valuable insights and directions for future research in chart understanding leveraging large foundation models. The studies mentioned in this paper, along with emerging new research, will be continually updated at: https://github.com/khuangaf/Awesome-Chart-Understanding.

arxiv情報

著者 Kung-Hsiang Huang,Hou Pong Chan,Yi R. Fung,Haoyi Qiu,Mingyang Zhou,Shafiq Joty,Shih-Fu Chang,Heng Ji
発行日 2024-12-02 07:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク