DDNAS: Discretized Differentiable Neural Architecture Search for Text Classification

要約

Neural Architecture Search (NAS) は、テキスト表現の学習において有望な機能を示しています。
ただし、既存のテキストベースの NAS は、アーキテクチャを最適化するために学習可能なニューラル操作の融合を実行したり、テキスト入力の背後にある潜在的な階層分類をエンコードしたりすることはありません。
この論文では、テキスト表現の学習と分類のための新しい NAS 手法である Discretized Differentiable Neural Architecture Search (DDNAS) を紹介します。
アーキテクチャ表現の継続的な緩和により、DDNAS は勾配降下法を使用して検索を最適化できます。
また、相互情報量の最大化による新しい離散化層を提案します。これは、テキスト表現における潜在的な階層分類をモデル化するためにすべての検索ノードに課されます。
8 つの多様な実際のデータセットに対して行われた広範な実験により、DDNAS が常に最先端の NAS 手法を上回るパフォーマンスを発揮できることが示されました。
DDNAS は、NAS ビルディング ブロックの候補となる 3 つの基本演算 (畳み込み、プーリング、およびなし) のみに依存していますが、その有望なパフォーマンスは注目に値し、さらにさまざまな演算を追加することでさらに改善できるように拡張可能です。

要約(オリジナル)

Neural Architecture Search (NAS) has shown promising capability in learning text representation. However, existing text-based NAS neither performs a learnable fusion of neural operations to optimize the architecture, nor encodes the latent hierarchical categorization behind text input. This paper presents a novel NAS method, Discretized Differentiable Neural Architecture Search (DDNAS), for text representation learning and classification. With the continuous relaxation of architecture representation, DDNAS can use gradient descent to optimize the search. We also propose a novel discretization layer via mutual information maximization, which is imposed on every search node to model the latent hierarchical categorization in text representation. Extensive experiments conducted on eight diverse real datasets exhibit that DDNAS can consistently outperform the state-of-the-art NAS methods. While DDNAS relies on only three basic operations, i.e., convolution, pooling, and none, to be the candidates of NAS building blocks, its promising performance is noticeable and extensible to obtain further improvement by adding more different operations.

arxiv情報

著者 Kuan-Chun Chen,Cheng-Te Li,Kuo-Jung Lee
発行日 2023-07-12 08:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク