要約
現実世界の重要性にもかかわらず、表形式データのモデルパフォーマンスは露出度の低いままであり、どのモデルに依存するモデルと採用する迅速な構成について不確実性を残します。
このギャップに対処するために、テーブルの推論と堅牢性のベンチマークであるTorrを作成します。これは、テーブル関連のタスクのモデルパフォーマンスと堅牢性を測定します。
ベンチマークには、さまざまなドメインにわたってさまざまなタイプのテーブル推論機能をカバーする10のデータセットが含まれています。
TORRはモデルのパフォーマンスランキングを超えており、さまざまな一般的なテーブル表現形式でモデルが表形式データを一貫して堅牢に処理できるかどうかを反映するように設計されています。
リーダーボードと、Torrを介した主要なモデルの結果の包括的な分析を提示します。
私たちの結果は、強力なモデルでさえ表形式のデータタスクで堅牢に実行することができない脆性モデルの動作の顕著なパターンを明らかにしています。
特定のテーブル形式が一貫してより良いパフォーマンスにつながることはありませんが、モデル機能を確実に推定するためには、複数の形式でのテストが重要であることを示しています。
さらに、複数のプロンプトのテストによる信頼性の向上は、より多くのテスト例を追加するのと同等である可能性があることを示します。
全体として、私たちの調査結果は、テーブルの理解と推論タスクが依然として大きな課題であることを示しています。
要約(オリジナル)
Despite its real-world significance, model performance on tabular data remains underexplored, leaving uncertainty about which model to rely on and which prompt configuration to adopt. To address this gap, we create ToRR, a benchmark for Table Reasoning and Robustness, that measures model performance and robustness on table-related tasks. The benchmark includes 10 datasets that cover different types of table reasoning capabilities across varied domains. ToRR goes beyond model performance rankings, and is designed to reflect whether models can handle tabular data consistently and robustly, across a variety of common table representation formats. We present a leaderboard as well as comprehensive analyses of the results of leading models over ToRR. Our results reveal a striking pattern of brittle model behavior, where even strong models are unable to perform robustly on tabular data tasks. Although no specific table format leads to consistently better performance, we show that testing over multiple formats is crucial for reliably estimating model capabilities. Moreover, we show that the reliability boost from testing multiple prompts can be equivalent to adding more test examples. Overall, our findings show that table understanding and reasoning tasks remain a significant challenge.
arxiv情報
著者 | Shir Ashury-Tahan,Yifan Mai,Rajmohan C,Ariel Gera,Yotam Perlitz,Asaf Yehudai,Elron Bandel,Leshem Choshen,Eyal Shnarch,Percy Liang,Michal Shmueli-Scheuer |
発行日 | 2025-02-26 18:56:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google