要約
特定のアプリケーション空間でのトレーニング中に使用されるデータは、デプロイ後のシステムのパフォーマンスに直接関連付けられます。
機械学習内で高性能モデルを生成するには他にも多くの要素が関係しますが、システムのトレーニングに使用されるデータが構築の基礎となることは疑いの余地がありません。
機械学習分野で使用される基本的な経験則の 1 つは、より多くのデータがより良いモデルにつながるというものですが、「どれくらいのデータが必要か?」という質問に対する簡単な答えはありません。
この研究では、無線周波数ドメイン空間における変調分類問題を調査し、望ましいレベルのパフォーマンスを達成するためにどのくらいのトレーニング データが必要かという疑問に答えようとしていますが、この手順はモダリティ全体の分類問題に容易に適用できます。
最終的な目標は、必要なパフォーマンス メトリクスを達成するためのより徹底的な収集作業に適切な情報を提供するために、最小限のデータ収集しか必要としないアプローチを決定することです。
このアプローチでは、メトリクスが抽出される \textit{target} データセットとして機能する問題空間に密接な初期データセットが必要ですが、目標は、必要なデータよりも桁違いに小さい初期データを許可することです。
望ましいパフォーマンスを達成するシステムを提供します。
ここで紹介する手法のさらなる利点は、さまざまなデータセットの品質を数値的に評価し、データの量、そして最終的には問題領域のアーキテクチャのパフォーマンスと結び付けることができることです。
要約(オリジナル)
The data used during training in any given application space is directly tied to the performance of the system once deployed. While there are many other factors that go into producing high performance models within machine learning, there is no doubt that the data used to train a system provides the foundation from which to build. One of the underlying rule of thumb heuristics used within the machine learning space is that more data leads to better models, but there is no easy answer for the question, ‘How much data is needed?’ This work examines a modulation classification problem in the Radio Frequency domain space, attempting to answer the question of how much training data is required to achieve a desired level of performance, but the procedure readily applies to classification problems across modalities. The ultimate goal is determining an approach that requires the least amount of data collection to better inform a more thorough collection effort to achieve the desired performance metric. While this approach will require an initial dataset that is germane to the problem space to act as a \textit{target} dataset on which metrics are extracted, the goal is to allow for the initial data to be orders of magnitude smaller than what is required for delivering a system that achieves the desired performance. An additional benefit of the techniques presented here is that the quality of different datasets can be numerically evaluated and tied together with the quantity of data, and ultimately, the performance of the architecture in the problem domain.
arxiv情報
著者 | William H. Clark IV,Alan J. Michaels |
発行日 | 2024-06-14 17:33:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google