Multimodal Multi-User Surface Recognition with the Kernel Two-Sample Test

要約

機械学習と深層学習は、画像と時系列の接触データを通じて物理的な表面を分類するために広く使用されてきました。
ただし、これらの方法は人間の専門知識に依存しており、データとパラメーターの調整に時間のかかるプロセスが伴います。
これらの課題を克服するために、分類タスク用の異種データ ソースを直接処理できる、簡単に実装できるフレームワークを提案します。
当社のデータ対データのアプローチは、マルチモーダル データ (画像、音、触覚信号など) から抽出された 2 つのセット間のカーネル 2 サンプル テストを介して、高次元空間における分布の特徴的な違いを自動的に定量化します。
このアプリケーションの産業上の関連性、難しさ、および競争力のあるベースラインにより、視覚、聴覚、触覚の表面認識のために専門的に設計された分類器に対してベンチマークすることにより、技術の有効性を実証します。
アブレーション研究により、パイプラインの主要コンポーネントの有用性が確認されています。
私たちのオープンソース コードに示されているように、108 のサーフェス クラスを持つ標準的なマルチユーザー データセットで 97.2% の精度を達成し、より困難なバージョンのタスクで最先端の機械学習アルゴリズムを 6% 上回っています。
.
私たちの分類器が標準アルゴリズム設定で最小限のデータ処理でこのパフォーマンスを得るという事実は、複雑なパターンを認識することを学習するためのカーネル メソッドの強力な性質を強化します。

要約(オリジナル)

Machine learning and deep learning have been used extensively to classify physical surfaces through images and time-series contact data. However, these methods rely on human expertise and entail the time-consuming processes of data and parameter tuning. To overcome these challenges, we propose an easily implemented framework that can directly handle heterogeneous data sources for classification tasks. Our data-versus-data approach automatically quantifies distinctive differences in distributions in a high-dimensional space via kernel two-sample testing between two sets extracted from multimodal data (e.g., images, sounds, haptic signals). We demonstrate the effectiveness of our technique by benchmarking against expertly engineered classifiers for visual-audio-haptic surface recognition due to the industrial relevance, difficulty, and competitive baselines of this application; ablation studies confirm the utility of key components of our pipeline. As shown in our open-source code, we achieve 97.2% accuracy on a standard multi-user dataset with 108 surface classes, outperforming the state-of-the-art machine-learning algorithm by 6% on a more difficult version of the task. The fact that our classifier obtains this performance with minimal data processing in the standard algorithm setting reinforces the powerful nature of kernel methods for learning to recognize complex patterns.

arxiv情報

著者 Behnam Khojasteh,Friedrich Solowjow,Sebastian Trimpe,Katherine J. Kuchenbecker
発行日 2023-03-08 22:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク