Classification of assembly tasks combining multiple primitive actions using Transformers and xLSTMs

要約

人間が成績を尽くしたアセンブリタスクの分類は、安全性を確保し、ロボットアクションを予測し、ロボット学習を促進するために、共同ロボット工学に不可欠です。
ただし、タスクをより小さなプリミティブアクションにセグメント化することが実行不可能である場合、信頼できる分類を達成することは困難であり、複数の原始アクションを含む長いアセンブリタスクを分類する必要があります。
この研究では、ハンドランドマーク座標に基づいて長いアセンブリシーケンシャルタスクを分類し、2つの定評のある分類器、LSTMとトランス、および最近のモデルXLSTMのパフォーマンスを比較します。
CTベンチマークで提案されているHRCシナリオを使用しました。これには、挿入、ネジの留め具、スナップフィッティングなどのアクションを組み合わせた長いアセンブリタスクが含まれます。
テストは、トレーニングシーケンスを実行したヒトオペレーターと3人の新しいオペレーターの両方から収集されたシーケンスを使用して実施されました。
LSTM、トランス、およびXLSTMモデルの実質パッドシーケンスのテスト結果は、トレーニングオペレーターで72.9%、95.0%、93.2%、新しいオペレーターでそれぞれ43.5%、54.3%、60.8%でした。
LSTMモデルは、他の2つのアプローチと比較して明らかにパフォーマンスが低下しています。
予想通り、XLSTMモデルは新しいオペレーターにより良い一般化能力を示しましたが、変圧器とXLSTMの両方がトレーニングされたオペレーターの満足のいく結果を達成しました。
結果は、このタイプの分類で、XLSTMモデルがトランスに対してわずかなエッジを提供することを明確に示しています。

要約(オリジナル)

The classification of human-performed assembly tasks is essential in collaborative robotics to ensure safety, anticipate robot actions, and facilitate robot learning. However, achieving reliable classification is challenging when segmenting tasks into smaller primitive actions is unfeasible, requiring us to classify long assembly tasks that encompass multiple primitive actions. In this study, we propose classifying long assembly sequential tasks based on hand landmark coordinates and compare the performance of two well-established classifiers, LSTM and Transformer, as well as a recent model, xLSTM. We used the HRC scenario proposed in the CT benchmark, which includes long assembly tasks that combine actions such as insertions, screw fastenings, and snap fittings. Testing was conducted using sequences gathered from both the human operator who performed the training sequences and three new operators. The testing results of real-padded sequences for the LSTM, Transformer, and xLSTM models was 72.9%, 95.0% and 93.2% for the training operator, and 43.5%, 54.3% and 60.8% for the new operators, respectively. The LSTM model clearly underperformed compared to the other two approaches. As expected, both the Transformer and xLSTM achieved satisfactory results for the operator they were trained on, though the xLSTM model demonstrated better generalization capabilities to new operators. The results clearly show that for this type of classification, the xLSTM model offers a slight edge over Transformers.

arxiv情報

著者 Miguel Neves,Pedro Neto
発行日 2025-05-23 15:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク