要約
単眼歩行ビデオから診断グループと歩行障害を評価するための知識拡張戦略を紹介します。
大規模な事前トレーニング済み視覚言語モデル (VLM) に基づいた当社のモデルは、3 つの異なるモダリティ (歩行ビデオ、クラス固有の説明、
そして数値的な歩行パラメータ。
私たちの具体的な貢献は 2 つあります。まず、知識を意識したプロンプト チューニング戦略を採用し、テキスト プロンプト学習をガイドする際にクラス固有の医学的説明を利用します。
次に、ペアの歩行パラメータを数値テキストの形式で統合し、テキスト表現の数値性を高めます。
結果は、私たちのモデルがビデオベースの分類タスクにおいて最先端 (SOTA) を大幅に上回るだけでなく、定量的な歩行パラメータの語彙を使用して学習されたクラス固有のテキスト特徴を自然言語記述に適切にデコードできることを示しています。
コードとモデルはプロジェクト ページで公開されます。
要約(オリジナル)
We present a knowledge augmentation strategy for assessing the diagnostic groups and gait impairment from monocular gait videos. Based on a large-scale pre-trained Vision Language Model (VLM), our model learns and improves visual, textual, and numerical representations of patient gait videos, through a collective learning across three distinct modalities: gait videos, class-specific descriptions, and numerical gait parameters. Our specific contributions are two-fold: First, we adopt a knowledge-aware prompt tuning strategy to utilize the class-specific medical description in guiding the text prompt learning. Second, we integrate the paired gait parameters in the form of numerical texts to enhance the numeracy of the textual representation. Results demonstrate that our model not only significantly outperforms state-of-the-art (SOTA) in video-based classification tasks but also adeptly decodes the learned class-specific text features into natural language descriptions using the vocabulary of quantitative gait parameters. The code and the model will be made available at our project page.
arxiv情報
著者 | Diwei Wang,Kun Yuan,Candice Muller,Frédéric Blanc,Nicolas Padoy,Hyewon Seo |
発行日 | 2024-03-20 17:03:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google