要約
本稿では、Transformerアーキテクチャに基づき、エンコーダとデコーダの組み合わせ数の異なるクロスマルチヘッドの注目計算方法を探索するニューラル・アーキテクチャ探索手法を提案する。より良い翻訳結果をもたらすニューラルネットワーク構造を探索するため、BLEUスコアに加え、アルゴリズムの補助評価指標としてperplexityを考慮し、多目的遺伝的アルゴリズムにより、母集団内の個々のニューラルネットワークを反復的に改良した。実験の結果、本アルゴリズムにより探索されたニューラルネットワーク構造は、すべてのベースラインモデルを凌駕し、補助評価指標の導入により、BLEUスコアのみを評価指標として考慮するよりも優れたモデルを発見できることが示された。
要約(オリジナル)
This paper presents a neural architecture search method based on Transformer architecture, searching cross multihead attention computation ways for different number of encoder and decoder combinations. In order to search for neural network structures with better translation results, we considered perplexity as an auxiliary evaluation metric for the algorithm in addition to BLEU scores and iteratively improved each individual neural network within the population by a multi-objective genetic algorithm. Experimental results show that the neural network structures searched by the algorithm outperform all the baseline models, and that the introduction of the auxiliary evaluation metric can find better models than considering only the BLEU score as an evaluation metric.
arxiv情報
著者 | Shang Wang,Huanrong Tang,Jianquan Ouyang |
発行日 | 2025-05-02 14:40:16+00:00 |
arxivサイト | arxiv_id(pdf) |