TableLlama: Towards Open Large Generalist Models for Tables

要約

半構造化テーブルはいたるところに存在します。
テーブルを自動的に解釈、拡張、クエリすることを目的としたさまざまなタスクが存在します。
現在の手法では、多くの場合、テーブルや特別なモデル アーキテクチャ設計での事前トレーニングが必要であったり、特定のテーブル タイプに制限されたり、テーブルやタスクに関する前提条件が簡素化されたりしています。
この論文は、テーブルベースの多様なタスクのジェネラリストとして、オープンソースの大規模言語モデル (LLM) を開発するための第一歩を踏み出します。
その目的に向けて、命令のチューニングと LLM の評価のために、さまざまな現実的なテーブルとタスクを含む新しいデータセットである TableInstruct を構築します。
さらに、長いコンテキストの課題に対処するために LongLoRA を使用して Llama 2 (7B) を微調整することにより、テーブル用の最初のオープンソース ジェネラリスト モデルである TableLlama を開発しました。
ドメイン内設定とドメイン外設定の両方で実験を行います。
TableLlama は、8 つのドメイン内タスクのうち 7 つで、SOTA がタスク固有の設計になっている場合が多いにもかかわらず、各タスクで SOTA と同等以上のパフォーマンスを達成します。
6 つのドメイン外データセットでは、基本モデルと比較して 5 ~ 44 の絶対ポイント ゲインを達成し、TableInstruct でのトレーニングによりモデルの一般化可能性が向上することを示しています。
私たちは、テーブル用のオープンジェネラリストモデルの開発における今後の取り組みを促進するために、データセットとトレーニング済みモデルをオープンソースにしています。

要約(オリジナル)

Semi-structured tables are ubiquitous. There has been a variety of tasks that aim to automatically interpret, augment, and query tables. Current methods often require pretraining on tables or special model architecture design, are restricted to specific table types, or have simplifying assumptions about tables and tasks. This paper makes the first step towards developing open-source large language models (LLMs) as generalists for a diversity of table-based tasks. Towards that end, we construct TableInstruct, a new dataset with a variety of realistic tables and tasks, for instruction tuning and evaluating LLMs. We further develop the first open-source generalist model for tables, TableLlama, by fine-tuning Llama 2 (7B) with LongLoRA to address the long context challenge. We experiment under both in-domain setting and out-of-domain setting. On 7 out of 8 in-domain tasks, TableLlama achieves comparable or better performance than the SOTA for each task, despite the latter often has task-specific design. On 6 out-of-domain datasets, it achieves 5-44 absolute point gains compared with the base model, showing that training on TableInstruct enhances the model’s generalizability. We open-source our dataset and trained model to boost future work on developing open generalist models for tables.

arxiv情報

著者 Tianshu Zhang,Xiang Yue,Yifei Li,Huan Sun
発行日 2024-03-21 17:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク