Large Language Models Understand Layout

要約

大規模言語モデル (LLM) は、幅広い自然言語処理 (NLP) タスクにおいて並外れた能力を発揮します。
この論文では、LLM がテキスト理解機能を超えて、空間マーカーによって示されるテキスト レイアウトを処理できることを示します。
彼らは、明示的な空間認識と推論を必要とする質問に答えることができますが、元のデータからの空間マーカーが除外されると、パフォーマンスの大幅な低下が観察されます。
さらなる分析のために、レイアウトに依存するさまざまなタイプのデータセットに対して GPT-3.5、Baichuan2、Llama2、および ChatGLM3 モデルを使用した一連の実験を実行します。
実験結果から、LLM のレイアウト理解能力は主に事前トレーニング用のコーディング データによって導入され、命令チューニング段階でさらに強化されることが明らかになりました。
さらに、新しいテキスト ゲームによる低コストの自動生成データを統合することで、レイアウトの理解が強化されます。
最後に、レイアウト理解能力が効率的な視覚的質問応答 (VQA) システムの構築に有益であることを示します。

要約(オリジナル)

Large language models (LLMs) demonstrate extraordinary abilities in a wide range of natural language processing (NLP) tasks. In this paper, we show that, beyond text understanding capability, LLMs are capable of processing text layouts that are denoted by spatial markers. They are able to answer questions that require explicit spatial perceiving and reasoning, while a drastic performance drop is observed when the spatial markers from the original data are excluded. We perform a series of experiments with the GPT-3.5, Baichuan2, Llama2 and ChatGLM3 models on various types of layout-sensitive datasets for further analysis. The experimental results reveal that the layout understanding ability of LLMs is mainly introduced by the coding data for pretraining, which is further enhanced at the instruction-tuning stage. In addition, layout understanding can be enhanced by integrating low-cost, auto-generated data approached by a novel text game. Finally, we show that layout understanding ability is beneficial for building efficient visual question-answering (VQA) systems.

arxiv情報

著者 Weiming Li,Manni Duan,Dong An,Yan Shao
発行日 2024-07-25 09:17:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク