Learning Interpretable Concepts: Unifying Causal Representation Learning and Foundation Models

要約

インテリジェントな機械学習システムを構築するには、大きく 2 つのアプローチがあります。
1 つのアプローチは、因果表現学習の成長分野で試みられているように、本質的に解釈可能なモデルを構築することです。
もう 1 つのアプローチは、高性能の基礎モデルを構築し、それがどのように機能するかを理解することに労力を費やすことです。
この研究では、これら 2 つのアプローチを関連付け、人間が解釈可能な概念をデータから学習する方法を研究します。
両方の分野のアイデアを組み合わせて、概念の概念を正式に定義し、それらが多様なデータから証明可能に復元できることを示します。
合成データと大規模言語モデルの実験では、統一されたアプローチの有用性が示されています。

要約(オリジナル)

To build intelligent machine learning systems, there are two broad approaches. One approach is to build inherently interpretable models, as endeavored by the growing field of causal representation learning. The other approach is to build highly-performant foundation models and then invest efforts into understanding how they work. In this work, we relate these two approaches and study how to learn human-interpretable concepts from data. Weaving together ideas from both fields, we formally define a notion of concepts and show that they can be provably recovered from diverse data. Experiments on synthetic data and large language models show the utility of our unified approach.

arxiv情報

著者 Goutham Rajendran,Simon Buchholz,Bryon Aragam,Bernhard Schölkopf,Pradeep Ravikumar
発行日 2024-02-14 15:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.ST, stat.ML, stat.TH パーマリンク