Position: An Inner Interpretability Framework for AI Inspired by Lessons from Cognitive Neuroscience

要約

内部解釈可能性は、AI システムの内部メカニズムを明らかにするという使命を帯びた有望な新興分野ですが、これらのメカニズム理論を開発する方法についてはまだ多くの議論があります。
さらに、最近の批評では、AI のより広範な目標を推進するための AI の有用性を疑問視する問題が提起されています。
しかし、これらの問題は、認知神経科学という別の分野で取り組んでいる問題に似ていることは見落とされてきました。
ここでは関連するつながりを描き、分野間で生産的に応用できる教訓を強調します。
これらに基づいて、一般的な概念的枠組みを提案し、AI の内部解釈可能性研究におけるメカニズムの説明を構築するための具体的な方法論的戦略を示します。
この概念的な枠組みにより、Inner Interpretability は批判をかわし、AI システムを説明するための生産的な道に自らを位置づけることができます。

要約(オリジナル)

Inner Interpretability is a promising emerging field tasked with uncovering the inner mechanisms of AI systems, though how to develop these mechanistic theories is still much debated. Moreover, recent critiques raise issues that question its usefulness to advance the broader goals of AI. However, it has been overlooked that these issues resemble those that have been grappled with in another field: Cognitive Neuroscience. Here we draw the relevant connections and highlight lessons that can be transferred productively between fields. Based on these, we propose a general conceptual framework and give concrete methodological strategies for building mechanistic explanations in AI inner interpretability research. With this conceptual framework, Inner Interpretability can fend off critiques and position itself on a productive path to explain AI systems.

arxiv情報

著者 Martina G. Vilas,Federico Adolfi,David Poeppel,Gemma Roig
発行日 2024-07-31 13:18:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.NC パーマリンク