A Lightweight CNN-Transformer Model for Learning Traveling Salesman Problems

要約

タイトル:旅行セールスマン問題を学習するための軽量なCNN-Transformerモデル

要約:

– Transformerモデルは、大規模旅行セールスマン問題(TSP)においても最先端の性能を示すが、完全に連結された注意モデルに基づいており、大きな計算量やGPUメモリ使用量の問題がある。
– 私たちは、CNN埋め込みレイヤーと部分的自己注意に基づく軽量なCNN-Transformerモデルを提案する。CNN埋め込みレイヤーを使用することで、標準のTransformerモデルよりも入力データから空間特徴をよりうまく学習できる。また、提案された部分的自己注意を使用することで、完全に連結された注意モデルの重複がかなり削減される。
– 実験の結果、私たちの提案モデルは、TSPの解の品質、GPUメモリ使用量、推論時間の面で他の最先端のTransformerベースのモデルよりも優れていることが示されている。私たちのモデルは、他の最先端のTransformerモデルと比較して、GPUメモリ使用量が約20%少なく、推論時間が45%速くなっている。
– 私たちのコードは、https://github.com/cm8908/CNN_Transformer3で公開されている。

要約(オリジナル)

Transformer-based models show state-of-the-art performance even for large-scale Traveling Salesman Problems (TSPs). However, they are based on fully-connected attention models and suffer from large computational complexity and GPU memory usage. We propose a lightweight CNN-Transformer model based on a CNN embedding layer and partial self-attention. Our CNN-Transformer model is able to better learn spatial features from input data using a CNN embedding layer compared with the standard Transformer models. It also removes considerable redundancy in fully connected attention models using the proposed partial self-attention. Experiments show that the proposed model outperforms other state-of-the-art Transformer-based models in terms of TSP solution quality, GPU memory usage, and inference time. Our model consumes approximately 20% less GPU memory usage and has 45% faster inference time compared with other state-of-the-art Transformer-based models. Our code is publicly available at https://github.com/cm8908/CNN_Transformer3

arxiv情報

著者 Minseop Jung,Jaeseung Lee,Jibum Kim
発行日 2023-05-03 04:28:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CG, cs.LG パーマリンク