要約
署名ベースの手法は、進化するデータの複雑なストリーム間の相互作用に関する数学的洞察を提供します。
これらの洞察は、ストリーミングされたデータを理解するための数値的アプローチに非常に自然に翻訳することができます。おそらく、数学的な精度のために、データが不規則であり、静止していない状況、およびデータとデータの次元が不規則である状況でストリーミングされたデータを分析するのに役立つことが証明されました。
サンプルサイズはどちらも中程度です。
ストリーミングされたマルチモーダルデータの理解は指数関数的です。サイズ$ d $のアルファベットからの$ n $文字の単語は、$ d^n $メッセージのいずれかです。
署名は、サンプリングの不規則性から生じる指数のノイズを削除しますが、指数関数の情報はまだ残っています。
この調査の目的は、その指数スケーリングを直接管理できるドメインにとどまることを目的としています。
スケーラビリティの問題は、多くの問題において重要な課題ですが、別の調査記事とさらなるアイデアが必要です。
この調査では、データセットが大規模な機械学習の可能性を削除するのに十分なほど小さいコンテキストの範囲について説明し、小さなセットのコンテキストセットの存在と原則的な機能を効果的に使用できます。
ツールの数学的な性質は、それらの使用を非メサマチック人にとって威圧的にすることができます。
この記事で紹介する例は、このコミュニケーションのギャップを埋め、機械学習のコンテキストから描かれた扱いやすい作業例を提供することを目的としています。
ノートブックは、これらの例のいくつかについてオンラインで入手できます。
この調査は、この機械の開発の初期の時点で非常に類似した目的を持っていたイリヤ・シェブリエフとアンドレイ・コルミリツィンの初期の論文に基づいています。
この記事では、署名によって提供される理論的洞察が、データ型に主に不可知論される方法でのアプリケーションデータの分析で単に実現される方法を示しています。
要約(オリジナル)
Signature-based techniques give mathematical insight into the interactions between complex streams of evolving data. These insights can be quite naturally translated into numerical approaches to understanding streamed data, and perhaps because of their mathematical precision, have proved useful in analysing streamed data in situations where the data is irregular, and not stationary, and the dimension of the data and the sample sizes are both moderate. Understanding streamed multi-modal data is exponential: a word in $n$ letters from an alphabet of size $d$ can be any one of $d^n$ messages. Signatures remove the exponential amount of noise that arises from sampling irregularity, but an exponential amount of information still remain. This survey aims to stay in the domain where that exponential scaling can be managed directly. Scalability issues are an important challenge in many problems but would require another survey article and further ideas. This survey describes a range of contexts where the data sets are small enough to remove the possibility of massive machine learning, and the existence of small sets of context free and principled features can be used effectively. The mathematical nature of the tools can make their use intimidating to non-mathematicians. The examples presented in this article are intended to bridge this communication gap and provide tractable working examples drawn from the machine learning context. Notebooks are available online for several of these examples. This survey builds on the earlier paper of Ilya Chevryev and Andrey Kormilitzin which had broadly similar aims at an earlier point in the development of this machinery. This article illustrates how the theoretical insights offered by signatures are simply realised in the analysis of application data in a way that is largely agnostic to the data type.
arxiv情報
著者 | Terry Lyons,Andrew D. McLeod |
発行日 | 2025-01-24 15:00:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google