Intelligent Control of Robotic X-ray Devices using a Language-promptable Digital Twin

要約

自然言語は、ロボット C アーム X 線システムを制御するための便利で柔軟なインターフェイスを提供し、高度な機能と制御にアクセスできるようにします。
ただし、言語インターフェイスを有効にするには、X 線画像を解釈して推論のための意味表現を作成する特殊な AI モデルが必要です。
このような AI モデルの出力が固定されているため、言語制御の機能が制限されます。
言語を通じて促される、柔軟で言語に合わせた AI モデルを組み込むことで、多様なタスクや手順に対応する、より汎用性の高いインターフェイスが可能になります。
X 線画像セグメンテーションに言語に合わせた基礎モデルを使用することで、当社のシステムは、必要な解剖学的構造のまばらな再構成に基づいて患者のデジタル ツインを継続的に更新します。
これにより、視覚化、患者固有のビューファインディング、新しい視点からの自動コリメーションなどの自律機能がサポートされ、「下部腰椎に焦点を当てる」コマンドが可能になります。
死体の研究では、ユーザーは口頭コマンドを使用して胴体全体の構造を視覚化し、位置を特定し、コリメートし、84% のエンドツーエンドの成功を達成しました。
ランダムな方向の画像の事後分析により、患者のデジタル ツインが、一般的に要求される 35 の構造を 51.68 mm 以内に位置特定でき、任意の方向からの位置特定と分離が可能になることがわかりました。
私たちの結果は、インテリジェントなロボット X 線システムが医師の表明された意図をどのように直接組み込むことができるかを示しています。
術中 X 線分析用の既存の基礎モデルは故障モードを示しますが、改良することで、非常に柔軟でインテリジェントなロボット C アームの実現が可能になります。

要約(オリジナル)

Natural language offers a convenient, flexible interface for controlling robotic C-arm X-ray systems, making advanced functionality and controls accessible. However, enabling language interfaces requires specialized AI models that interpret X-ray images to create a semantic representation for reasoning. The fixed outputs of such AI models limit the functionality of language controls. Incorporating flexible, language-aligned AI models prompted through language enables more versatile interfaces for diverse tasks and procedures. Using a language-aligned foundation model for X-ray image segmentation, our system continually updates a patient digital twin based on sparse reconstructions of desired anatomical structures. This supports autonomous capabilities such as visualization, patient-specific viewfinding, and automatic collimation from novel viewpoints, enabling commands ‘Focus in on the lower lumbar vertebrae.’ In a cadaver study, users visualized, localized, and collimated structures across the torso using verbal commands, achieving 84% end-to-end success. Post hoc analysis of randomly oriented images showed our patient digital twin could localize 35 commonly requested structures to within 51.68 mm, enabling localization and isolation from arbitrary orientations. Our results demonstrate how intelligent robotic X-ray systems can incorporate physicians’ expressed intent directly. While existing foundation models for intra-operative X-ray analysis exhibit failure modes, as they improve, they can facilitate highly flexible, intelligent robotic C-arms.

arxiv情報

著者 Benjamin D. Killeen,Anushri Suresh,Catalina Gomez,Blanca Inigo,Christopher Bailey,Mathias Unberath
発行日 2024-12-11 02:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, cs.RO パーマリンク