Coaching a Robotic Sonographer: Learning Robotic Ultrasound with Sparse Expert’s Feedback

要約

超音波は、非侵襲性、放射線不使用、およびリアルタイム画像化を提供するという利点により、臨床介入および診断に広く使用されています。
ただし、オペレーターには十分な訓練と専門知識が必要であるため、この器用な手順を利用できるかどうかは限られています。
ロボット超音波 (RUS) は、この制限に対処するための実行可能なソリューションを提供します。
それにもかかわらず、人間レベルの習熟度を達成することは依然として困難です。
RUS では、オフライン デモンストレーションのデータセットから事前にポリシーを学習して、専門の超音波検査者のメンタル モデルをエンコードする、デモンストレーションから学習する (LfD) 手法が研究されています。
しかし、RUS のトレーニング中の専門家の積極的な関与、つまりコーチングはこれまで検討されていませんでした。
コーチングは人間のトレーニングの効率とパフォーマンスを向上させることで知られています。
この文書では、RUS のパフォーマンスを向上させるためのコーチング フレームワークを提案します。
このフレームワークは、DRL (自己教師ありの実践) とコーチングを通じたまばらな専門家のフィードバックを組み合わせたものです。
DRL は、ポリシーに準拠しない Soft Actor-Critic (SAC) ネットワークを採用しており、画質評価に基づいて報酬が与えられます。
専門家によるコーチングは、部分的に観察可能なマルコフ決定プロセス (POMDP) としてモデル化されており、専門家による修正に基づいて政策パラメーターを更新します。
ファントムに関する検証研究では、コーチングにより学習率が $25\%$ 増加し、高品質の画像取得数が $74.5\%$ 増加することが示されました。

要約(オリジナル)

Ultrasound is widely employed for clinical intervention and diagnosis, due to its advantages of offering non-invasive, radiation-free, and real-time imaging. However, the accessibility of this dexterous procedure is limited due to the substantial training and expertise required of operators. The robotic ultrasound (RUS) offers a viable solution to address this limitation; nonetheless, achieving human-level proficiency remains challenging. Learning from demonstrations (LfD) methods have been explored in RUS, which learns the policy prior from a dataset of offline demonstrations to encode the mental model of the expert sonographer. However, active engagement of experts, i.e. Coaching, during the training of RUS has not been explored thus far. Coaching is known for enhancing efficiency and performance in human training. This paper proposes a coaching framework for RUS to amplify its performance. The framework combines DRL (self-supervised practice) with sparse expert’s feedback through coaching. The DRL employs an off-policy Soft Actor-Critic (SAC) network, with a reward based on image quality rating. The coaching by experts is modeled as a Partially Observable Markov Decision Process (POMDP), which updates the policy parameters based on the correction by the expert. The validation study on phantoms showed that coaching increases the learning rate by $25\%$ and the number of high-quality image acquisition by $74.5\%$.

arxiv情報

著者 Deepak Raina,Mythra V. Balakuntala,Byung Wook Kim,Juan Wachs,Richard Voyles
発行日 2024-09-03 23:52:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク