An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

要約

音源定位(SSL)、音源分離(SSS)、自動音声認識(ASR)を含むロボットオーディオは、ロボットやスマートデバイスが人間の聴覚と同様の聴覚能力を獲得することを可能にします。その応用範囲は広いものの、SSLにおけるマイクロホンアレイからのマルチチャンネルオーディオ信号の処理には、計算集約的な行列演算が必要であり、特にCPUリソースが限られた組込みシステムでは、中央処理装置(CPU)での効率的な導入の妨げとなる可能性がある。本論文では、オープンソースのソフトウェアスイートであるHARKプラットフォームにおいて、ノイズに強いアルゴリズムである一般化特異値分解に基づく多重信号分類(GSVD-MUSIC)を利用した、ロボットオーディションのためのSSLのGPUベースの実装を紹介する。60チャンネルのマイクアレイに対して、提案された実装は大幅な性能向上を達成した。NVIDIA GPUとARM Cortex-A78AE v8.2 64ビットCPUを搭載した組み込みデバイスであるJetson AGX Orinでは、GSVD計算で4645.1倍、SSLモジュールで8.8倍、GSVD計算で2223.4倍、SSLモジュール全体で8.また、NVIDIA A100 GPUとAMD EPYC 7352 CPUで構成されたサーバー上では、SSLモジュール全体で2223.4倍、8.95倍の高速化が確認され、大規模なマイクアレイでのリアルタイム処理が実現可能であり、後続の機械学習や深層学習タスクのリアルタイム処理に十分なキャパシティを提供しています。

要約(オリジナル)

Robot audition, encompassing Sound Source Localization (SSL), Sound Source Separation (SSS), and Automatic Speech Recognition (ASR), enables robots and smart devices to acquire auditory capabilities similar to human hearing. Despite their wide applicability, processing multi-channel audio signals from microphone arrays in SSL involves computationally intensive matrix operations, which can hinder efficient deployment on Central Processing Units (CPUs), particularly in embedded systems with limited CPU resources. This paper introduces a GPU-based implementation of SSL for robot audition, utilizing the Generalized Singular Value Decomposition-based Multiple Signal Classification (GSVD-MUSIC), a noise-robust algorithm, within the HARK platform, an open-source software suite. For a 60-channel microphone array, the proposed implementation achieves significant performance improvements. On the Jetson AGX Orin, an embedded device powered by an NVIDIA GPU and ARM Cortex-A78AE v8.2 64-bit CPUs, we observe speedups of 4645.1x for GSVD calculations and 8.8x for the SSL module, while speedups of 2223.4x for GSVD calculation and 8.95x for the entire SSL module on a server configured with an NVIDIA A100 GPU and AMD EPYC 7352 CPUs, making real-time processing feasible for large-scale microphone arrays and providing ample capacity for real-time processing of potential subsequent machine learning or deep learning tasks.

arxiv情報

著者 Zirui Lin,Masayuki Takigahira,Naoya Terakado,Haris Gulzar,Monikka Roslianna Busto,Takeharu Eda,Katsutoshi Itoyama,Kazuhiro Nakadai,Hideharu Amano
発行日 2025-04-04 11:44:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SD, eess.AS | An Efficient GPU-based Implementation for Noise Robust Sound Source Localization はコメントを受け付けていません

MultiClear: Multimodal Soft Exoskeleton Glove for Transparent Object Grasping Assistance

要約

把持は、環境と相互作用するための基本的なスキルである。しかし、この能力は(例えば障害のために)困難な場合がある。ウェアラブル・ロボットは手の機能を強化したり回復させたりすることができ、最近の進歩ではコンピュータ・ビジョンを活用して把持能力を向上させている。しかし、透明な物体を把持することは、視覚的コントラストが低く、奥行きの手がかりが曖昧であるため、依然として困難です。さらに、透明な物体を把持するために、触覚や聴覚のフィードバックを組み込んだマルチモーダル制御戦略が研究されているが、視覚とこれらのモダリティの統合は未開発のままである。本論文では、RGBデータ、奥行きデータ、および聴覚信号を融合することにより、透明物体のためのウェアラブルソフト外骨格グローブにおける把持支援を強化するために設計されたマルチモーダルフレームワークであるMultiClearを紹介する。この外骨格グローブは、腱駆動アクチュエータとRGB-Dカメラおよび内蔵マイクを統合している。高精度かつ適応的な制御を実現するために、階層的制御アーキテクチャを提案する。提案する階層制御アーキテクチャでは、高位制御層が文脈認識を提供し、中位制御層がマルチモーダル感覚入力を処理し、低位制御が微調整された把持調整のためのPIDモータ制御を実行する。透明な物体のセグメンテーションの課題は、ゼロショットセグメンテーションのためのビジョン基盤モデルを導入することによって管理された。提案システムは70.37%の把持能力を達成し、透明物体操作における有効性を実証した。

要約(オリジナル)

Grasping is a fundamental skill for interacting with the environment. However, this ability can be difficult for some (e.g. due to disability). Wearable robotic solutions can enhance or restore hand function, and recent advances have leveraged computer vision to improve grasping capabilities. However, grasping transparent objects remains challenging due to their poor visual contrast and ambiguous depth cues. Furthermore, while multimodal control strategies incorporating tactile and auditory feedback have been explored to grasp transparent objects, the integration of vision with these modalities remains underdeveloped. This paper introduces MultiClear, a multimodal framework designed to enhance grasping assistance in a wearable soft exoskeleton glove for transparent objects by fusing RGB data, depth data, and auditory signals. The exoskeleton glove integrates a tendon-driven actuator with an RGB-D camera and a built-in microphone. To achieve precise and adaptive control, a hierarchical control architecture is proposed. For the proposed hierarchical control architecture, a high-level control layer provides contextual awareness, a mid-level control layer processes multimodal sensory inputs, and a low-level control executes PID motor control for fine-tuned grasping adjustments. The challenge of transparent object segmentation was managed by introducing a vision foundation model for zero-shot segmentation. The proposed system achieves a Grasping Ability Score of 70.37%, demonstrating its effectiveness in transparent object manipulation.

arxiv情報

著者 Chen Hu,Timothy Neate,Shan Luo,Letizia Gionfrida
発行日 2025-04-04 11:51:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | MultiClear: Multimodal Soft Exoskeleton Glove for Transparent Object Grasping Assistance はコメントを受け付けていません

DML-RAM: Deep Multimodal Learning Framework for Robotic Arm Manipulation using Pre-trained Models

要約

本稿では、後期融合戦略を用いてマルチモーダル入力を統合する、ロボットアーム操作のための新しいディープラーニングフレームワークを紹介する。従来のend-to-endアプローチや強化学習アプローチとは異なり、本手法は、事前に学習されたモデルで画像シーケンスを処理し、機械学習アルゴリズムでロボットの状態データを処理し、制御のための連続的なアクション値を予測するためにそれらの出力を融合する。BridgeData V2とKukaデータセットで評価した結果、最良の構成(VGG16+ランダムフォレスト)は、それぞれ0.0021と0.0028のMSEを達成し、強力な予測性能と頑健性を実証した。このフレームワークは、モジュール性、解釈可能性、リアルタイムの意思決定をサポートし、適応的な、ヒューマンインザループのサイバーフィジカルシステムの目標に合致している。

要約(オリジナル)

This paper presents a novel deep learning framework for robotic arm manipulation that integrates multimodal inputs using a late-fusion strategy. Unlike traditional end-to-end or reinforcement learning approaches, our method processes image sequences with pre-trained models and robot state data with machine learning algorithms, fusing their outputs to predict continuous action values for control. Evaluated on BridgeData V2 and Kuka datasets, the best configuration (VGG16 + Random Forest) achieved MSEs of 0.0021 and 0.0028, respectively, demonstrating strong predictive performance and robustness. The framework supports modularity, interpretability, and real-time decision-making, aligning with the goals of adaptive, human-in-the-loop cyber-physical systems.

arxiv情報

著者 Sathish Kumar,Swaroop Damodaran,Naveen Kumar Kuruba,Sumit Jha,Arvind Ramanathan
発行日 2025-04-04 13:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | DML-RAM: Deep Multimodal Learning Framework for Robotic Arm Manipulation using Pre-trained Models はコメントを受け付けていません

Human2Robot: Learning Robot Actions from Paired Human-Robot Videos

要約

人間の実演から知識を抽出することは、ロボットが学習し行動するための有望な方法である。既存の研究では、人間とロボットの違いを見落としていることが多く、満足のいく結果が得られていない。本論文では、完全に整列した人間とロボットのペアが、ロボットの学習にどのように役立つかを研究する。VRベースのテレポーテーションを利用し、人間の手とロボットのグリッパーの間の細かな対応関係をそれぞれ捉えた2600のエピソードからなる三人称データセットであるH&Rを導入する。近年の拡散モデルの成功に触発され、人間の実演からの学習を生成タスクとして定式化したエンドツーエンドの拡散フレームワークであるHuman2Robotを紹介する。Human2Robotは、人間の映像の時間的ダイナミクスを完全に探索し、ロボットの映像を生成すると同時に行動を予測する。実世界での4つの厳選されたタスクの包括的な評価を通じて、Human2Robotが高品質なロボットビデオを生成できるだけでなく、見たことのあるタスクや、異なる位置、見たことのない外観、新しいインスタンス、さらには新しい背景やタスクタイプへの汎化に優れていることを実証する。

要約(オリジナル)

Distilling knowledge from human demonstrations is a promising way for robots to learn and act. Existing work often overlooks the differences between humans and robots, producing unsatisfactory results. In this paper, we study how perfectly aligned human-robot pairs benefit robot learning. Capitalizing on VR-based teleportation, we introduce H\&R, a third-person dataset with 2,600 episodes, each of which captures the fine-grained correspondence between human hand and robot gripper. Inspired by the recent success of diffusion models, we introduce Human2Robot, an end-to-end diffusion framework that formulates learning from human demonstration as a generative task. Human2Robot fully explores temporal dynamics in human videos to generate robot videos and predict actions at the same time. Through comprehensive evaluations of 4 carefully selected tasks in real-world settings, we demonstrate that Human2Robot can not only generate high-quality robot videos but also excels in seen tasks and generalizing to different positions, unseen appearances, novel instances, and even new backgrounds and task types.

arxiv情報

著者 Sicheng Xie,Haidong Cao,Zejia Weng,Zhen Xing,Shiwei Shen,Jiaqi Leng,Xipeng Qiu,Yanwei Fu,Zuxuan Wu,Yu-Gang Jiang
発行日 2025-04-04 15:25:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Human2Robot: Learning Robot Actions from Paired Human-Robot Videos はコメントを受け付けていません

RAIDER: Tool-Equipped Large Language Model Agent for Robotic Action Issue Detection, Explanation and Recovery

要約

ロボットが人間中心のダイナミックな環境で動作する機会が増えるにつれ、動作に関連する問題を検出、説明、回復する能力を向上させることが極めて重要になっている。従来のモデルベースやデータ駆動型の手法では適応性に欠け、より柔軟な生成AI手法では、抽出された情報を実世界の制約に基づかせることに苦慮している。我々は、大規模言語モデル(Large Language Models: LLM)と、適応可能で効率的な問題検出と説明のためのグラウンディングツールを統合した新しいエージェントであるRAIDERを紹介する。RAIDERは、独自の’Ground, Ask&Answer, Issue’手順を用いて、文脈を考慮した前提条件の質問を動的に生成し、解決のための適切なツールを選択することで、的を絞った情報収集を実現する。シミュレーションされた家庭環境における我々の結果は、事前に定義されたモデル、完全なシーン記述、または単体の学習済みモデルに依存する方法を凌駕している。さらに、RAIDERの説明は、人間との対話を必要とするケースを含め、復旧の成功率を高めます。自己修正メカニズムを特徴とするそのモジュラーアーキテクチャは、実際の人間支援タスクで実証されたように、多様なシナリオへの素直な適応を可能にする。これは、RAIDERがロボットの問題検出と説明のための多用途エージェントAIソリューションとしての可能性を示すと同時に、具現化エージェントに効果的に適用するための生成AIの基礎付けの問題に取り組んでいる。プロジェクトウェブサイト:https://eurecat.github.io/raider-llmagent/

要約(オリジナル)

As robots increasingly operate in dynamic human-centric environments, improving their ability to detect, explain, and recover from action-related issues becomes crucial. Traditional model-based and data-driven techniques lack adaptability, while more flexible generative AI methods struggle with grounding extracted information to real-world constraints. We introduce RAIDER, a novel agent that integrates Large Language Models (LLMs) with grounded tools for adaptable and efficient issue detection and explanation. Using a unique ‘Ground, Ask&Answer, Issue’ procedure, RAIDER dynamically generates context-aware precondition questions and selects appropriate tools for resolution, achieving targeted information gathering. Our results within a simulated household environment surpass methods relying on predefined models, full scene descriptions, or standalone trained models. Additionally, RAIDER’s explanations enhance recovery success, including cases requiring human interaction. Its modular architecture, featuring self-correction mechanisms, enables straightforward adaptation to diverse scenarios, as demonstrated in a real-world human-assistive task. This showcases RAIDER’s potential as a versatile agentic AI solution for robotic issue detection and explanation, while addressing the problem of grounding generative AI for its effective application in embodied agents. Project website: https://eurecat.github.io/raider-llmagent/

arxiv情報

著者 Silvia Izquierdo-Badiola,Carlos Rizzo,Guillem Alenyà
発行日 2025-04-04 15:38:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | RAIDER: Tool-Equipped Large Language Model Agent for Robotic Action Issue Detection, Explanation and Recovery はコメントを受け付けていません

An Open-Source Reproducible Chess Robot for Human-Robot Interaction Research

要約

近年のAIの進歩により、汎用性の高いロボットデザインの進化が加速している。チェスは、ロボットの行動が人間の行動に与える影響を評価するための標準化された環境を提供する。この記事では、人間とロボットの相互作用(HRI)研究のためのオープンソースのチェスロボットを紹介し、特に言語的および非言語的な相互作用に焦点を当てる。OpenChessRobotは、コンピュータ・ビジョンを使ってチェスの駒を認識し、手を実行し、音声とロボット・ジェスチャーを通して人間のプレイヤーと対話する。ソフトウェア設計の詳細、ロボットの有効性の定量的評価、再現性のためのガイドを提供する。597人の参加者を対象に、3つの可能なシナリオにおけるロボットに対する人々の意見を調査するオンライン調査を実施した。ロボットは、ロボット工学教育とチェスコーチのシナリオで最も高い評価を得たが、ホームエンターテイメントのシナリオでは最も低い評価を得た。コードはGitHubでアクセス可能: https://github.com/renchizhhhh/OpenChessRobot

要約(オリジナル)

Recent advancements in AI have accelerated the evolution of versatile robot designs. Chess provides a standardized environment for evaluating the impact of robot behavior on human behavior. This article presents an open-source chess robot for human-robot interaction (HRI) research, specifically focusing on verbal and non-verbal interactions. The OpenChessRobot recognizes chess pieces using computer vision, executes moves, and interacts with the human player through voice and robotic gestures. We detail the software design, provide quantitative evaluations of the efficacy of the robot, and offer a guide for its reproducibility. An online survey examining people’s views of the robot in three possible scenarios was conducted with 597 participants. The robot received the highest ratings in the robotics education and the chess coach scenarios, while the home entertainment scenario received the lowest scores. The code is accessible on GitHub: https://github.com/renchizhhhh/OpenChessRobot

arxiv情報

著者 Renchi Zhang,Joost de Winter,Dimitra Dodou,Harleigh Seyffert,Yke Bauke Eisma
発行日 2025-04-04 16:20:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.HC, cs.RO | An Open-Source Reproducible Chess Robot for Human-Robot Interaction Research はコメントを受け付けていません

Walk along: An Experiment on Controlling the Mobile Robot ‘Spot’ with Voice and Gestures

要約

ロボットの性能は向上し、場所間の移動などのタスクを自律的にこなせるようになっている。しかし、人間の監視は依然として重要である。本研究では、移動ロボットを指示するための2つのタッチレス方法(音声制御とジェスチャー制御)を比較し、方法の効率性とユーザーの嗜好性を調査した。1つは静止したまま、もう1つはロボットの横を自由に歩くという条件である。我々は、歩行が空間的な整列を促進し、精神的な回転に必要な労力を軽減するという考えに基づき、ロボットと並んで歩くことが、より高い直感性評価をもたらし、タスクのパフォーマンスを向上させるという仮説を立てた。2×2の被験者内デザインにおいて、218名の参加者が、左回転、右回転、前方歩行のコマンドを用いて、90度のターンを何度も繰り返す周回ルートに沿って、四足歩行ロボットSpotを誘導した。各試行後、参加者はコマンドマッピングの直感性を評価し、実験後のインタビューは参加者の嗜好を収集するために用いられた。その結果、スポットを使った歩行と組み合わせた音声制御が最も好まれ、直感的であったのに対し、立ったままのジェスチャー制御は左右のコマンドで混乱を引き起こした。それにもかかわらず、29%の参加者がジェスチャーコントロールを好み、その理由としてタスクへの関与の増加と視覚的一致を挙げた。オドメトリに基づく分析によると、特にジェスチャーコントロールの条件では、歩行が許可されると、参加者はスポットの後ろをついてくることが多かった。結論として、歩行を伴う音声コントロールが最良の結果をもたらした。身体的エルゴノミクスを改善し、ジェスチャーの種類を調整することで、ジェスチャー制御がより効果的になる可能性がある。

要約(オリジナル)

Robots are becoming more capable and can autonomously perform tasks such as navigating between locations. However, human oversight remains crucial. This study compared two touchless methods for directing mobile robots: voice control and gesture control, to investigate the efficiency of the methods and the preference of users. We tested these methods in two conditions: one in which participants remained stationary and one in which they walked freely alongside the robot. We hypothesized that walking alongside the robot would result in higher intuitiveness ratings and improved task performance, based on the idea that walking promotes spatial alignment and reduces the effort required for mental rotation. In a 2×2 within-subject design, 218 participants guided the quadruped robot Spot along a circuitous route with multiple 90-degree turns using rotate left, rotate right, and walk forward commands. After each trial, participants rated the intuitiveness of the command mapping, while post-experiment interviews were used to gather the participants’ preferences. Results showed that voice control combined with walking with Spot was the most favored and intuitive, whereas gesture control while standing caused confusion for left/right commands. Nevertheless, 29% of participants preferred gesture control, citing increased task engagement and visual congruence as reasons. An odometry-based analysis revealed that participants often followed behind Spot, particularly in the gesture control condition, when they were allowed to walk. In conclusion, voice control with walking produced the best outcomes. Improving physical ergonomics and adjusting gesture types could make gesture control more effective.

arxiv情報

著者 Renchi Zhang,Jesse van der Linden,Dimitra Dodou,Harleigh Seyffert,Yke Bauke Eisma,Joost C. F. de Winter
発行日 2025-04-04 16:25:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.HC, cs.RO | Walk along: An Experiment on Controlling the Mobile Robot ‘Spot’ with Voice and Gestures はコメントを受け付けていません

SeGuE: Semantic Guided Exploration for Mobile Robots

要約

具現化されたAIアプリケーションの台頭により、ロボットは高度な環境理解を必要とする複雑なタスクを実行できるようになった。このような環境においてロボットの操作を成功させるためには、地図は幾何学的情報に加えて意味的情報を含むように構築されなければならない。本論文では、移動ロボットが自律的に環境を探索し、その構造と特徴の意味的外観の両方を完全にマッピングする必要があるという、意味的探索という新しい問題に取り組む。我々は、潜在的なポーズがそのポーズから見える意味的特徴に基づいてスコア化される、ネクストベストビュー探索に基づく方法を開発する。潜在的なビューをサンプリングするための2つの代替方法を探索し、シミュレーションと物理実験の両方で我々のフレームワークの有効性を実証する。高品質なセマンティックマップの自動作成は、ロボットがより良く環境を理解し対話することを可能にし、将来の具現化AIアプリケーションをより容易に展開することを可能にする。

要約(オリジナル)

The rise of embodied AI applications has enabled robots to perform complex tasks which require a sophisticated understanding of their environment. To enable successful robot operation in such settings, maps must be constructed so that they include semantic information, in addition to geometric information. In this paper, we address the novel problem of semantic exploration, whereby a mobile robot must autonomously explore an environment to fully map both its structure and the semantic appearance of features. We develop a method based on next-best-view exploration, where potential poses are scored based on the semantic features visible from that pose. We explore two alternative methods for sampling potential views and demonstrate the effectiveness of our framework in both simulation and physical experiments. Automatic creation of high-quality semantic maps can enable robots to better understand and interact with their environments and enable future embodied AI applications to be more easily deployed.

arxiv情報

著者 Cody Simons,Aritra Samanta,Amit K. Roy-Chowdhury,Konstantinos Karydis
発行日 2025-04-04 17:46:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | SeGuE: Semantic Guided Exploration for Mobile Robots はコメントを受け付けていません

How Feature Learning Can Improve Neural Scaling Laws

要約

我々は、カーネル限界を超えたニューラル・スケーリング則の可解モデルを開発する。このモデルの理論的解析により、モデルサイズ、訓練時間、利用可能なデータの総量によって性能がどのように変化するかを示す。タスクの難易度の変化に対応する3つのスケーリング領域を特定する。初期無限幅Neural Tangent Kernel(NTK)によって定義される再生カーネルヒルベルト空間(RKHS)にある、簡単なタスクと超簡単なタスクの場合、スケーリング指数は特徴学習モデルとカーネル領域モデルの間で変化しない。ハードタスク(初期NTKのRKHSの外側にあるタスクと定義)に対しては、特徴学習により学習時間と計算量のスケーリングが改善され、ハードタスクの指数がほぼ2倍になることを解析的、経験的に示す。これは、特徴学習領域において、パラメータと訓練時間をスケーリングするための異なる計算最適化戦略を導く。我々は、特徴学習が難しいタスクではスケーリング則を改善するが、簡単なタスクや超簡単なタスクでは改善しないという我々の発見を、円上のべき乗フーリエスペクトルを持つ関数にフィットする非線形MLPと、視覚タスクを学習するCNNの実験により支持する。

要約(オリジナル)

We develop a solvable model of neural scaling laws beyond the kernel limit. Theoretical analysis of this model shows how performance scales with model size, training time, and the total amount of available data. We identify three scaling regimes corresponding to varying task difficulties: hard, easy, and super easy tasks. For easy and super-easy target functions, which lie in the reproducing kernel Hilbert space (RKHS) defined by the initial infinite-width Neural Tangent Kernel (NTK), the scaling exponents remain unchanged between feature learning and kernel regime models. For hard tasks, defined as those outside the RKHS of the initial NTK, we demonstrate both analytically and empirically that feature learning can improve scaling with training time and compute, nearly doubling the exponent for hard tasks. This leads to a different compute optimal strategy to scale parameters and training time in the feature learning regime. We support our finding that feature learning improves the scaling law for hard tasks but not for easy and super-easy tasks with experiments of nonlinear MLPs fitting functions with power-law Fourier spectra on the circle and CNNs learning vision tasks.

arxiv情報

著者 Blake Bordelon,Alexander Atanasov,Cengiz Pehlevan
発行日 2025-04-04 13:47:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML | How Feature Learning Can Improve Neural Scaling Laws はコメントを受け付けていません

HeartBERT: A Self-Supervised ECG Embedding Model for Efficient and Effective Medical Signal Analysis

要約

HeartBertモデルは、心電図(ECG)信号を解析する機械学習システムにおいて、ラベル付きデータの必要性を減らし、計算リソースを最小化し、同時に性能を向上させるという3つの主な目的で導入された。自然言語処理におけるBERT(Bidirectional Encoder Representations from Transformers)に触発され、自己教師付き学習アプローチで強化されたHeartBertモデルは、RoBERTaアーキテクチャ上に構築され、医療領域におけるECGベースのプロジェクトに合わせた洗練された埋め込みを生成する。提案モデルの多用途性、汎用性、および効率性を実証するために、2 つの主要な下流タスク(睡眠段階検出と心拍分類)が選択されている。HeartBERTベースのシステムは、双方向LSTMヘッドを利用し、複雑な課題に対処するように設計されている。HeartBERTの優位性と先進性を実証するために、一連の実用的な実験が実施され、特に、より少ないトレーニングデータセットで良好な性能を発揮する能力、学習パラメータの削減、ライバルモデルと比較した効果的な性能などが実証された。コードとデータは、https://github.com/ecgResearch/HeartBert で公開されている。

要約(オリジナル)

The HeartBert model is introduced with three primary objectives: reducing the need for labeled data, minimizing computational resources, and simultaneously improving performance in machine learning systems that analyze Electrocardiogram (ECG) signals. Inspired by Bidirectional Encoder Representations from Transformers (BERT) in natural language processing and enhanced with a self-supervised learning approach, the HeartBert model-built on the RoBERTa architecture-generates sophisticated embeddings tailored for ECG-based projects in the medical domain. To demonstrate the versatility, generalizability, and efficiency of the proposed model, two key downstream tasks have been selected: sleep stage detection and heartbeat classification. HeartBERT-based systems, utilizing bidirectional LSTM heads, are designed to address complex challenges. A series of practical experiments have been conducted to demonstrate the superiority and advancements of HeartBERT, particularly in terms of its ability to perform well with smaller training datasets, reduced learning parameters, and effective performance compared to rival models. The code and data are publicly available at https://github.com/ecgResearch/HeartBert.

arxiv情報

著者 Saedeh Tahery,Fatemeh Hamid Akhlaghi,Termeh Amirsoleimani
発行日 2025-04-04 13:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, eess.SP | HeartBERT: A Self-Supervised ECG Embedding Model for Efficient and Effective Medical Signal Analysis はコメントを受け付けていません