(Not) Understanding Latin Poetic Style with Deep Learning

要約

この記事は、音響的および韻律的特徴を含むようにエンコードされた古典ラテン語詩のコーパスで訓練されたさまざまなニューラル ネットワーク (LSTM および CNN) の注意を調べることによって、作家のスタイルを理解しようとするほとんど失敗した試みを要約します。
慎重に構成されたニューラル ネットワークは、非常に強力な著者分類子であることが示されているため、「伝統的な」読者に著者のスタイルの違いについて何かを教えることができることが期待されています。
悲しいことに、彼らの推論は今のところ不可解だ。
全体的な目標はまだ達成されていませんが、この研究では、詩をエンコードして埋め込む効果的な方法、ニューラル ネットワーク ファミリの相対的な長所と短所、および設計と設計に役立つ (そしてあまり役に立たない) テクニックに関して、いくつかの有益な発見が報告されています。
このドメインの NN モデルを検査します。
この記事は、詩の場合、LSTM よりも CNN の方が良い選択肢であることを示唆しています。CNN はより迅速にトレーニングされ、同等の精度を持ち、(潜在的に) より優れた解釈可能性を提供します。
また、大量の実験に基づいて、シンプルでトレーニング可能な埋め込みがドメイン固有のスキームより効果的であることを示唆し、ドロップアウトやバッチ正規化などの過剰適合を軽減する技術の重要性を強調しています。

要約(オリジナル)

This article summarizes some mostly unsuccessful attempts to understand authorial style by examining the attention of various neural networks (LSTMs and CNNs) trained on a corpus of classical Latin verse that has been encoded to include sonic and metrical features. Carefully configured neural networks are shown to be extremely strong authorship classifiers, so it is hoped that they might therefore teach `traditional’ readers something about how the authors differ in style. Sadly their reasoning is, so far, inscrutable. While the overall goal has not yet been reached, this work reports some useful findings in terms of effective ways to encode and embed verse, the relative strengths and weaknesses of the neural network families, and useful (and not so useful) techniques for designing and inspecting NN models in this domain. This article suggests that, for poetry, CNNs are better choices than LSTMs — they train more quickly, have equivalent accuracy, and (potentially) offer better interpretability. Based on a great deal of experimentation, it also suggests that simple, trainable embeddings are more effective than domain-specific schemes, and stresses the importance of techniques to reduce overfitting, like dropout and batch normalization.

arxiv情報

著者 Ben Nagy
発行日 2024-04-09 09:21:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク