Understanding Addition in Transformers

要約

Transformerのような機械学習モデルの内部構造を理解することは、その安全かつ倫理的な使用のために不可欠である。本稿では、n桁の整数の足し算のために学習された1層のTransformerモデルの詳細な分析を行う。我々は、このモデルがタスクを並列の桁別のストリームに分割し、異なる桁位置に対して異なるアルゴリズムを採用していることを明らかにする。また、このモデルは計算の開始は遅いが、実行は高速であることもわかった。損失が大きい稀なユースケースが特定され、説明される。全体として、モデルのアルゴリズムが詳細に説明されている。これらの発見は、厳密なテストと数学的モデリングによって検証され、機械論的解釈可能性、AIの安全性、およびアライメントにおけるより広範な研究に貢献する。我々のアプローチは、より複雑なタスクや多層変圧器モデルの解析への扉を開くものである。

要約(オリジナル)

Understanding the inner workings of machine learning models like Transformers is vital for their safe and ethical use. This paper presents an in-depth analysis of a one-layer Transformer model trained for n-digit integer addition. We reveal that the model divides the task into parallel, digit-specific streams and employs distinct algorithms for different digit positions. Our study also finds that the model starts calculations late but executes them rapidly. A rare use case with high loss is identified and explained. Overall, the model’s algorithm is explained in detail. These findings are validated through rigorous testing and mathematical modeling, contributing to the broader works in Mechanistic Interpretability, AI safety, and alignment. Our approach opens the door for analyzing more complex tasks and multi-layer Transformer models.

arxiv情報

著者 Philip Quirke,Fazl Barez
発行日 2024-02-29 19:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク