Information based explanation methods for deep learning agents — with applications on large open-source chess models

要約

AlphaZero のような大規模なチェスプレイ ニューラル ネットワーク モデルがコンピュータ化されたチェスの世界の最先端を争う中、2 つの課題が存在します。1 つはそのようなモデルによって内面化された領域知識をどのように説明するかという問題、もう 1 つはそのようなモデルがそうではないという問題です。
オープンに利用できるようになりました。
この研究は、McGrath らの AlphaZero に適用された概念検出方法論の再実装を示しています。
(2022)、同等のパフォーマンスを持つ大規模なオープンソース チェス モデルを使用します。
オープンソース リソースのみに依存しながら、AlphaZero で達成されたものと同様の結果が得られます。
また、説明されたモデルによって使用される情報を徹底的かつ排他的に強調表示することが保証される、新しい説明可能な AI (XAI) メソッドも紹介します。
この方法は、チェスの場合と同様に、離散入力空間によって特徴付けられるドメインに合わせた視覚的な説明を生成します。
私たちが提示した方法には、任意の入力ベクトルと特定のモデルの間の情報フローを制御するという望ましい特性があり、これにより、推論中にトレーニングされたモデルによってどのような情報が使用されるかについて厳密な保証が提供されます。
大規模なオープンソース チェス モデルを使用して、標準の 8×8 チェスに適用することで、この方法の実行可能性を実証します。

要約(オリジナル)

With large chess-playing neural network models like AlphaZero contesting the state of the art within the world of computerised chess, two challenges present themselves: The question of how to explain the domain knowledge internalised by such models, and the problem that such models are not made openly available. This work presents the re-implementation of the concept detection methodology applied to AlphaZero in McGrath et al. (2022), by using large, open-source chess models with comparable performance. We obtain results similar to those achieved on AlphaZero, while relying solely on open-source resources. We also present a novel explainable AI (XAI) method, which is guaranteed to highlight exhaustively and exclusively the information used by the explained model. This method generates visual explanations tailored to domains characterised by discrete input spaces, as is the case for chess. Our presented method has the desirable property of controlling the information flow between any input vector and the given model, which in turn provides strict guarantees regarding what information is used by the trained model during inference. We demonstrate the viability of our method by applying it to standard 8×8 chess, using large open-source chess models.

arxiv情報

著者 Patrik Hammersborg,Inga Strümke
発行日 2023-09-18 12:08:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク