要約
コストのかかる特徴による分類 (CwCF) は、最適化基準に特徴のコストを含む分類問題です。
サンプルごとに個別にその特徴が順次取得され、取得される特徴のコストを最小限に抑えながら精度を最大化します。
ただし、既存のアプローチでは、固定長のベクトルとして表現できるデータのみを処理できます。
実際には、データは多くの場合、豊富で複雑な構造を持ち、XML や JSON などの形式でより正確に記述することができます。
データは階層構造になっており、多くの場合、オブジェクトのネストされたリストが含まれています。
この研究では、既存の深層強化学習ベースのアルゴリズムを階層型ディープセットと階層型ソフトマックスで拡張し、このデータを直接処理できるようにしました。
拡張された方法では、どの特徴を取得できるかについてより詳細な制御が可能であり、7 つのデータセットを使用した実験で、これが優れたパフォーマンスにつながることを示しました。
新しい方法の実際の使用法を示すために、オンライン サービスを使用して悪意のある Web ドメインを分類するという現実の問題にこの方法を適用します。
要約(オリジナル)
Classification with Costly Features (CwCF) is a classification problem that includes the cost of features in the optimization criteria. Individually for each sample, its features are sequentially acquired to maximize accuracy while minimizing the acquired features’ cost. However, existing approaches can only process data that can be expressed as vectors of fixed length. In real life, the data often possesses rich and complex structure, which can be more precisely described with formats such as XML or JSON. The data is hierarchical and often contains nested lists of objects. In this work, we extend an existing deep reinforcement learning-based algorithm with hierarchical deep sets and hierarchical softmax, so that it can directly process this data. The extended method has greater control over which features it can acquire and, in experiments with seven datasets, we show that this leads to superior performance. To showcase the real usage of the new method, we apply it to a real-life problem of classifying malicious web domains, using an online service.
arxiv情報
| 著者 | Jaromír Janisch,Tomáš Pevný,Viliam Lisý |
| 発行日 | 2024-02-29 15:30:15+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google