要約
大規模言語モデル (LLM) は、テキスト全体にわたる情報の集約を必要とするクエリではうまく機能しないことがよくあります。
この設定をより適切に評価し、モデリング作業を促進するために、複雑な命令を使用して LLM の推論と計算能力を評価するために作成されたデータセットである TACT – Text And Calculations through Tables を導入します。
TACT には、1 つ以上のテキストに散在する情報をつなぎ合わせ、この情報を複雑に統合して答えを生成することを要求する、難しい命令が含まれています。
このデータセットは、テキストとそれに関連するテーブルの既存のデータセットを利用して構築します。
このようなテーブルごとに、新しいクエリを作成し、それぞれの回答を収集します。
現在のすべての LLM はこのデータセットではパフォーマンスが低く、精度が 38% 未満であることを示しています。
問題を正確に特定し、問題を徹底的に分析するために、テーブル生成、Pandas コマンド生成、実行の 3 つのコンポーネントにわたってモデルのパフォーマンスを分析します。
予想外にも、各コンポーネントが現在の LLM にとって大きな課題を提示していることがわかりました。
これらの洞察に基づいて、私たちはツールとしての IE と呼ぶ、焦点を絞ったモデリング フレームワークを提案することにつながりました。
具体的には、上記の各ステップに「ツール」を追加し、そのような各ツールを数回のプロンプトで実装することを提案します。
このアプローチは、既存のプロンプト手法に対する改善を示しており、これらのタスクにおけるモデルの機能を強化するための有望な方向性を提供します。
要約(オリジナル)
Large Language Models (LLMs) often do not perform well on queries that require the aggregation of information across texts. To better evaluate this setting and facilitate modeling efforts, we introduce TACT – Text And Calculations through Tables, a dataset crafted to evaluate LLMs’ reasoning and computational abilities using complex instructions. TACT contains challenging instructions that demand stitching information scattered across one or more texts, and performing complex integration on this information to generate the answer. We construct this dataset by leveraging an existing dataset of texts and their associated tables. For each such tables, we formulate new queries, and gather their respective answers. We demonstrate that all contemporary LLMs perform poorly on this dataset, achieving an accuracy below 38%. To pinpoint the difficulties and thoroughly dissect the problem, we analyze model performance across three components: table-generation, Pandas command-generation, and execution. Unexpectedly, we discover that each component presents substantial challenges for current LLMs. These insights lead us to propose a focused modeling framework, which we refer to as IE as a tool. Specifically, we propose to add ‘tools’ for each of the above steps, and implement each such tool with few-shot prompting. This approach shows an improvement over existing prompting techniques, offering a promising direction for enhancing model capabilities in these tasks.
arxiv情報
著者 | Avi Caciularu,Alon Jacovi,Eyal Ben-David,Sasha Goldshtein,Tal Schuster,Jonathan Herzig,Gal Elidan,Amir Globerson |
発行日 | 2024-10-14 13:19:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google