Dense Sample Deep Learning

要約

1980 年代に最初に提案されたニューラル ネットワーク アルゴリズムの変種であるディープ ラーニング (DL) は、言語翻訳、タンパク質の折りたたみ、自動運転車、さらに最近では人間に似た言語モデル (CHATbot) に至るまで、ごく最近まで手に負えないと思われていた人工知能 (AI) において驚くべき進歩を遂げました。
深層学習 (DL) ネットワークの使用が増加しているにもかかわらず、これらのネットワークをさまざまなアプリケーションにわたって効果的にする学習メカニズムと表現については、実際にはほとんど理解されていません。
1987 年以来ほとんど変わっていないため、その答えの一部は、アーキテクチャの規模が巨大であること、そしてもちろんデータの規模が大きいことであるはずです。しかし、深層学習された表現の性質はほとんど知られていないままです。
残念ながら、数百万または数十億のトークンを含むトレーニング セットには未知の組み合わせがあり、数百万または数十億の隠れユニットを含むネットワークは簡単に視覚化できず、そのメカニズムを簡単に明らかにすることはできません。
このペーパーでは、新しい高密度サンプル タスク (トークンごとに少なくとも 500 個のサンプルを持つ 5 つの一意のトークン) における大規模 (124 万重み; VGG) DL を使用してこれらの疑問を調査します。これにより、カテゴリ構造と特徴構築の出現をより注意深く追跡することができます。
私たちは、分類の出現と、一種のグラフィカル ブートストラップを提供する特徴検出器と構造の結合の発展を追跡するために、さまざまな視覚化手法を使用します。これらの結果から、DL の学習ダイナミクスのいくつかの基本的な観察を収集し、その結果に基づいて複雑な特徴構築の新しい理論を提案します。

要約(オリジナル)

Deep Learning (DL) , a variant of the neural network algorithms originally proposed in the 1980s, has made surprising progress in Artificial Intelligence (AI), ranging from language translation, protein folding, autonomous cars, and more recently human-like language models (CHATbots), all that seemed intractable until very recently. Despite the growing use of Deep Learning (DL) networks, little is actually understood about the learning mechanisms and representations that makes these networks effective across such a diverse range of applications. Part of the answer must be the huge scale of the architecture and of course the large scale of the data, since not much has changed since 1987. But the nature of deep learned representations remain largely unknown. Unfortunately training sets with millions or billions of tokens have unknown combinatorics and Networks with millions or billions of hidden units cannot easily be visualized and their mechanisms cannot be easily revealed. In this paper, we explore these questions with a large (1.24M weights; VGG) DL in a novel high density sample task (5 unique tokens with at minimum 500 exemplars per token) which allows us to more carefully follow the emergence of category structure and feature construction. We use various visualization methods for following the emergence of the classification and the development of the coupling of feature detectors and structures that provide a type of graphical bootstrapping, From these results we harvest some basic observations of the learning dynamics of DL and propose a new theory of complex feature construction based on our results.

arxiv情報

著者 Stephen Josè Hanson,Vivek Yadav,Catherine Hanson
発行日 2023-07-21 15:18:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.NC, stat.ML パーマリンク