要約
テーブルの理解における最近の進歩は、テーブル関連のタスクの命令を調整する大きな言語モデル(LLM)に焦点を当てています。
ただし、既存の研究では、ハイパーパラメーターの選択の影響を見落としており、ドメイン外のテーブル理解能力とこれらのテーブルLLMの一般的な能力の包括的な評価が欠けています。
このホワイトペーパーでは、既存のテーブルLLMでこれらの能力を評価し、ベースモデルと比較して、ドメイン外のテーブル理解と一般的な機能の両方の大幅な減少を明らかにします。
体系的な分析を通じて、学習率などのハイパーパラメーターが、テーブル固有の能力と一般的な能力の両方に大きく影響することを示します。
既存のテーブル命令調整作業とは反対に、学習率が小さくなり、トレーニングインスタンスが少ないと一般的な能力を維持しながら、テーブルの理解を深めることができることが実証されています。
調査結果に基づいて、Llama 3.1 8b命令から調整されたテーブルLLM命令であるTamaを紹介します。
および一般的な能力。
私たちの調査結果は、慎重なハイパーパラメーターの選択を通じて、データアノテーションコストを削減する可能性とより効率的なモデル開発の可能性を強調しています。
要約(オリジナル)
Recent advances in table understanding have focused on instruction-tuning large language models (LLMs) for table-related tasks. However, existing research has overlooked the impact of hyperparameter choices and lacks a comprehensive evaluation of the out-of-domain table understanding ability and the general capabilities of these table LLMs. In this paper, we evaluate these abilities in existing table LLMs, and reveal significant declines in both out-of-domain table understanding and general capabilities compared to their base models. Through systematic analysis, we show that hyperparameters, such as learning rate, can significantly influence both table-specific and general capabilities. Contrary to the existing table instruction-tuning works, we demonstrate that smaller learning rates and fewer training instances can enhance table understanding while preserving general capabilities. Based on our findings, we introduce TAMA, a TAble LLM instruction-tuned from LLaMA 3.1 8B Instruct, which achieves performance on par with, or surpassing GPT-3.5 and GPT-4 on table tasks, while maintaining strong out-of-domain generalization and general capabilities. Our findings highlight the potential for reduced data annotation costs and more efficient model development through careful hyperparameter selection.
arxiv情報
著者 | Naihao Deng,Rada Mihalcea |
発行日 | 2025-01-24 18:06:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google