Causal Evaluation of Language Models

要約

因果推論は、人間レベルの機械知能を実現するために重要であると考えられています。
言語モデルの最近の進歩により、人工知能の視野がさまざまな領域に広がり、因果推論の可能性についての研究が活発になっています。
この研究では、言語モデルの因果評価 (CaLM) を紹介します。これは、私たちの知る限り、言語モデルの因果推論機能を評価するための最初の包括的なベンチマークです。
まず、CaLM フレームワークを提案します。これは、因果ターゲット (つまり、何を評価するか)、適応 (つまり、結果を取得する方法)、メトリック (つまり、結果を測定する方法) の 4 つのモジュールで構成される基本的な分類を確立します。
およびエラー (つまり、悪い結果を分析する方法)。
この分類法は、基準と優先順位を体系的に選択しながら、幅広い評価設計領域を定義します。
次に、126,334 個のデータ サンプルで構成される CaLM データセットを構成し、因果関係のターゲット、適応、メトリクス、エラーの精選されたセットを提供し、さまざまな研究追求に広範な範囲を提供します。
3 番目に、92 の因果関係ターゲット、9 つの適応、7 つのメトリクス、および 12 のエラー タイプからなるコア セットに関する 28 の主要な言語モデルの広範な評価を実施します。
4番目に、さまざまな側面(適応性、規模など)にわたる評価結果の詳細な分析を実行します。
第 5 に、9 つの次元 (モデルなど) にわたる 50 の高レベルの経験的発見を提示し、将来の言語モデル開発に貴重な指針を提供します。
最後に、拡張性と適応性のある評価をサポートするために、Web サイト、リーダーボード、データセット、ツールキットなどの多面的なプラットフォームを開発します。
私たちは、CaLM をコミュニティの進化し続けるベンチマークとして構想し、進行中の研究の進歩を反映するために新しい因果関係のターゲット、適応、モデル、メトリクス、エラーの種類を体系的に更新します。
プロジェクトの Web サイトは https://opencausalab.github.io/CaLM にあります。

要約(オリジナル)

Causal reasoning is viewed as crucial for achieving human-level machine intelligence. Recent advances in language models have expanded the horizons of artificial intelligence across various domains, sparking inquiries into their potential for causal reasoning. In this work, we introduce Causal evaluation of Language Models (CaLM), which, to the best of our knowledge, is the first comprehensive benchmark for evaluating the causal reasoning capabilities of language models. First, we propose the CaLM framework, which establishes a foundational taxonomy consisting of four modules: causal target (i.e., what to evaluate), adaptation (i.e., how to obtain the results), metric (i.e., how to measure the results), and error (i.e., how to analyze the bad results). This taxonomy defines a broad evaluation design space while systematically selecting criteria and priorities. Second, we compose the CaLM dataset, comprising 126,334 data samples, to provide curated sets of causal targets, adaptations, metrics, and errors, offering extensive coverage for diverse research pursuits. Third, we conduct an extensive evaluation of 28 leading language models on a core set of 92 causal targets, 9 adaptations, 7 metrics, and 12 error types. Fourth, we perform detailed analyses of the evaluation results across various dimensions (e.g., adaptation, scale). Fifth, we present 50 high-level empirical findings across 9 dimensions (e.g., model), providing valuable guidance for future language model development. Finally, we develop a multifaceted platform, including a website, leaderboards, datasets, and toolkits, to support scalable and adaptable assessments. We envision CaLM as an ever-evolving benchmark for the community, systematically updated with new causal targets, adaptations, models, metrics, and error types to reflect ongoing research advancements. Project website is at https://opencausalab.github.io/CaLM.

arxiv情報

著者 Sirui Chen,Bo Peng,Meiqi Chen,Ruiqi Wang,Mengying Xu,Xingyu Zeng,Rui Zhao,Shengjie Zhao,Yu Qiao,Chaochao Lu
発行日 2024-05-01 16:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク