要約
タイトル: TABLET:表形式データの命令学習
要約:
– MLモデルをトレーニングする際に、医療や金融などのプライバシーに配慮し、コストの高い領域において、高品質なデータを取得することはしばしば重要な課題である。
– 大型言語モデル(LLMs)に自然言語の指示を提供することは、代替解決策を提供する。
– しかし、命令が表形式の予測問題を解決するためにLLMsで知識をどの程度効果的に活用するかは不明である。
– このギャップを解決するために、我们はTABLETを紹介しました。このベンチマークには、フレーズ、粒度、専門性が異なる命令で注釈が付けられた20の異なる表形式データが含まれます。
– さらに、TABLETには命令の論理的な構造変更も含まれます。
– コンテキストにまで及ぶ命令はFlan-T5 11bのzero-shot F1のパフォーマンスを平均で44%向上させ、ChatGPTでは13%向上させることがわかりました。
– また、TABLETで命令忠実度を評価して、LLMsの限界を探りました。LLMsは命令を無視して、具体的な場合を正確に予測することができません。
– 当ベンチマークにおける分析から、命令はLLMのパフォーマンスを向上させる一方で、表形式データの命令学習には新しい能力が必要であることがわかりました。
要約(オリジナル)
Acquiring high-quality data is often a significant challenge in training machine learning (ML) models for tabular prediction, particularly in privacy-sensitive and costly domains like medicine and finance. Providing natural language instructions to large language models (LLMs) offers an alternative solution. However, it is unclear how effectively instructions leverage the knowledge in LLMs for solving tabular prediction problems. To address this gap, we introduce TABLET, a benchmark of 20 diverse tabular datasets annotated with instructions that vary in their phrasing, granularity, and technicality. Additionally, TABLET includes the instructions’ logic and structured modifications to the instructions. We find in-context instructions increase zero-shot F1 performance for Flan-T5 11b by 44% on average and 13% for ChatGPT on TABLET. Also, we explore the limitations of using LLMs for tabular prediction in our benchmark by evaluating instruction faithfulness. We find LLMs often ignore instructions and fail to predict specific instances correctly, even with examples. Our analysis on TABLET shows that, while instructions help LLM performance, learning from instructions for tabular data requires new capabilities.
arxiv情報
著者 | Dylan Slack,Sameer Singh |
発行日 | 2023-04-25 23:07:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI