Adversarial Testing as a Tool for Interpretability: Length-based Overfitting of Elementary Functions in Transformers

要約

Transformer モデルには、シーケンス全体の長さなど、トレーニング データのさまざまな側面が過剰適合する傾向があります。
シーケンス間トランスフォーマーの動作を解釈するために定義されたエラー インジケーターのセットを使用して、基本的な文字列編集関数を研究します。
短いシーケンスへの一般化は多くの場合可能であることを示しますが、部分的に正しい答えが得られる場合が多いものの、長いシーケンスには非常に問題があることが確認されます。
さらに、サブセグメントの長さなど、シーケンスの他の構造的特徴も同様に重要である可能性があることがわかりました。
モデルは構造的側面と同時にタスクのアルゴリズム的側面を学習しますが、残念ながら、構造的側面が衝突した場合、Transformer は構造的側面に固執することを優先することが多いと仮説を立てています。

要約(オリジナル)

The Transformer model has a tendency to overfit various aspects of the training data, such as the overall sequence length. We study elementary string edit functions using a defined set of error indicators to interpret the behaviour of the sequence-to-sequence Transformer. We show that generalization to shorter sequences is often possible, but confirm that longer sequences are highly problematic, although partially correct answers are often obtained. Additionally, we find that other structural characteristics of the sequences, such as subsegment length, may be equally important. We hypothesize that the models learn algorithmic aspects of the tasks simultaneously with structural aspects but adhering to the structural aspects is unfortunately often preferred by Transformer when they come into conflict.

arxiv情報

著者 Patrik Zavoral,Dušan Variš,Ondřej Bojar
発行日 2024-10-17 17:39:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク