Tables as Images? Exploring the Strengths and Limitations of LLMs on Multimodal Representations of Tabular Data

要約

このペーパーでは、さまざまなプロンプト戦略とデータ形式を通じて表形式データを解釈する際のさまざまな LLM の有効性を調査します。
私たちの分析は、質問への回答や事実確認などのテーブル関連タスクの 6 つのベンチマークにわたって行われています。
画像ベースのテーブル表現における LLM のパフォーマンスの評価を初めて紹介します。
具体的には、5 つのテキストベースのテーブル表現と 3 つの画像ベースのテーブル表現を比較し、LLM パフォーマンスに対する表現とプロンプトの影響を示します。
私たちの研究は、テーブル関連タスクにおける LLM の効果的な使用に関する洞察を提供します。

要約(オリジナル)

In this paper, we investigate the effectiveness of various LLMs in interpreting tabular data through different prompting strategies and data formats. Our analysis extends across six benchmarks for table-related tasks such as question-answering and fact-checking. We introduce for the first time the assessment of LLMs’ performance on image-based table representations. Specifically, we compare five text-based and three image-based table representations, demonstrating the influence of representation and prompting on LLM performance. Our study provides insights into the effective use of LLMs on table-related tasks.

arxiv情報

著者 Naihao Deng,Zhenjie Sun,Ruiqi He,Aman Sikka,Yulong Chen,Lin Ma,Yue Zhang,Rada Mihalcea
発行日 2024-02-22 15:34:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク