Real-Time Multimodal Cognitive Assistant for Emergency Medical Services

要約

救急医療サービス (EMS) の対応者は、一刻を争う状況下で活動することが多く、認知過負荷と固有のリスクに直面しており、批判的思考と迅速な意思決定の必須スキルが必要です。
この論文では、緊急現場からのマルチモーダル データのリアルタイム取得と分析に従事し、拡張現実 (AR) を通じて EMS 対応者と対話する協調的な仮想パートナーとして機能できる、エンドツーエンドのウェアラブル コグニティブ アシスタント システムである CognitiveEMS について紹介します。
スマートグラス。
CognitiveEMS は、連続的なデータ ストリームをリアルタイムで処理し、エッジ コンピューティングを活用して、EMS プロトコルの選択と介入の認識を支援します。
私たちは、次の 3 つの新しいコンポーネントを導入することで、リアルタイム認知支援における主要な技術的課題に対処します。 (i) シミュレートされた EMS 音声録音を使用して、現実世界の医療緊急会話用に微調整された音声認識モデル。大規模言語によって生成された合成データで強化されています。
モデル (LLM);
(ii) グラフベースのアテンション メカニズムを使用して、最先端 (SOTA) の小さな言語モデルと EMS ドメインの知識を組み合わせた EMS プロトコル予測モデル。
(iii) マルチモーダルオーディオおよびビデオデータとプロトコル予測を活用して、事件現場で対応者がとった介入/治療行動を推測する EMS 行動認識モジュール。
私たちの結果は、音声認識に関して、会話データに対して SOTA と比較して優れたパフォーマンス (WER 0.290 対 0.618) を達成していることを示しています。
また、当社のプロトコル予測コンポーネントは SOTA を大幅に上回り (トップ 3 の精度は 0.800 対 0.200)、アクション認識は 0.727 の精度を達成しながら、エッジでのプロトコル予測では 3.78 秒、エンドツーエンドの遅延は 0.31 秒を維持しています。
サーバー上で。

要約(オリジナル)

Emergency Medical Services (EMS) responders often operate under time-sensitive conditions, facing cognitive overload and inherent risks, requiring essential skills in critical thinking and rapid decision-making. This paper presents CognitiveEMS, an end-to-end wearable cognitive assistant system that can act as a collaborative virtual partner engaging in the real-time acquisition and analysis of multimodal data from an emergency scene and interacting with EMS responders through Augmented Reality (AR) smart glasses. CognitiveEMS processes the continuous streams of data in real-time and leverages edge computing to provide assistance in EMS protocol selection and intervention recognition. We address key technical challenges in real-time cognitive assistance by introducing three novel components: (i) a Speech Recognition model that is fine-tuned for real-world medical emergency conversations using simulated EMS audio recordings, augmented with synthetic data generated by large language models (LLMs); (ii) an EMS Protocol Prediction model that combines state-of-the-art (SOTA) tiny language models with EMS domain knowledge using graph-based attention mechanisms; (iii) an EMS Action Recognition module which leverages multimodal audio and video data and protocol predictions to infer the intervention/treatment actions taken by the responders at the incident scene. Our results show that for speech recognition we achieve superior performance compared to SOTA (WER of 0.290 vs. 0.618) on conversational data. Our protocol prediction component also significantly outperforms SOTA (top-3 accuracy of 0.800 vs. 0.200) and the action recognition achieves an accuracy of 0.727, while maintaining an end-to-end latency of 3.78s for protocol prediction on the edge and 0.31s on the server.

arxiv情報

著者 Keshara Weerasinghe,Saahith Janapati,Xueren Ge,Sion Kim,Sneha Iyer,John A. Stankovic,Homa Alemzadeh
発行日 2024-03-11 13:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク