Abstraction Alignment: Comparing Model and Human Conceptual Relationships

要約

抽象化 (特定の例を広範な再利用可能なパターンに一般化するプロセス) は、人々が情報を効率的に処理および保存し、知識を新しいデータに適用する方法の中心となります。
有望な研究では、ML モデルが「ボロタイ」や「車のタイヤ」などの特定の概念から、「CEO」や「モデル」などのより一般的な概念に至るまで、抽象化のレベルにまたがる表現を学習することが示されています。
しかし、既存の技術はこれらの表現を個別に分析し、学習された概念を相互に接続された抽象化の網ではなく独立した成果物として扱います。
その結果、モデルが出力を生成するために使用する概念を特定することはできますが、新しいデータに一般化する概念の人間に合わせた抽象化をモデルが学習したかどうかを評価することは困難です。
このギャップに対処するために、モデルが学習した抽象化と人間が期待する抽象化との間の一致を測定する方法論である抽象化アライメントを導入します。
言語関係や医学的疾患の階層など、モデルの出力と人間の抽象化グラフを比較することで、抽象化の整合性を定量化します。
画像モデルの解釈、言語モデルのベンチマーク、医療データセットの分析などの評価タスクにおいて、抽象化の調整により、モデルの動作とデータセットの内容をより深く理解し、人間の知識との一致に基づいてエラーを区別し、現在のモデルの品質指標の冗長性を拡張し、明らかにすることができます。
既存の人間の抽象化を改善する方法。

要約(オリジナル)

Abstraction — the process of generalizing specific examples into broad reusable patterns — is central to how people efficiently process and store information and apply their knowledge to new data. Promisingly, research has shown that ML models learn representations that span levels of abstraction, from specific concepts like ‘bolo tie’ and ‘car tire’ to more general concepts like ‘CEO’ and ‘model’. However, existing techniques analyze these representations in isolation, treating learned concepts as independent artifacts rather than an interconnected web of abstraction. As a result, although we can identify the concepts a model uses to produce its output, it is difficult to assess if it has learned a human-aligned abstraction of the concepts that will generalize to new data. To address this gap, we introduce abstraction alignment, a methodology to measure the agreement between a model’s learned abstraction and the expected human abstraction. We quantify abstraction alignment by comparing model outputs against a human abstraction graph, such as linguistic relationships or medical disease hierarchies. In evaluation tasks interpreting image models, benchmarking language models, and analyzing medical datasets, abstraction alignment provides a deeper understanding of model behavior and dataset content, differentiating errors based on their agreement with human knowledge, expanding the verbosity of current model quality metrics, and revealing ways to improve existing human abstractions.

arxiv情報

著者 Angie Boggust,Hyemin Bang,Hendrik Strobelt,Arvind Satyanarayan
発行日 2024-07-17 13:27:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク