要約
Generative Pre-trained Transformer 4-omni (GPT-4o) などの大規模ビジョン言語モデル (LVLM) は、無数の人々に対する強力な人工知能 (AI) 支援ツールとして大きな可能性を秘めた新たなマルチモーダル基盤モデルです。
ヘルスケア、産業、学術分野を含むアプリケーションの利用を促進します。
このような基礎モデルは幅広い一般タスクでは良好に機能しますが、特殊なタスクでは微調整を行わないと機能が制限されることがよくあります。
ただし、大規模な基礎モデルを完全に微調整することは、膨大な計算、メモリ、データセットの要件により困難です。
GPT-4o は、微調整なしでも前腕の超音波データから手のジェスチャーをデコードでき、数ショットのコンテキスト内学習で改善できることを示します。
要約(オリジナル)
Large vision-language models (LVLMs), such as the Generative Pre-trained Transformer 4-omni (GPT-4o), are emerging multi-modal foundation models which have great potential as powerful artificial-intelligence (AI) assistance tools for a myriad of applications, including healthcare, industrial, and academic sectors. Although such foundation models perform well in a wide range of general tasks, their capability without fine-tuning is often limited in specialized tasks. However, full fine-tuning of large foundation models is challenging due to enormous computation/memory/dataset requirements. We show that GPT-4o can decode hand gestures from forearm ultrasound data even with no fine-tuning, and improves with few-shot, in-context learning.
arxiv情報
著者 | Keshav Bimbraw,Ye Wang,Jing Liu,Toshiaki Koike-Akino |
発行日 | 2024-07-15 16:18:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google